本文来自于NoSQLFan联合作者@koven2049,他在淘宝从事Hadoop及HBase相关的应用和优化。对Hadoop、HBase都有深入的了解,本文就是其在工作中对HBase的应用优化小结,分享给大家。
目 录 [ - ]
前言原因应用情况部署、运维和监控测试与发布改进和优化将来计划
前言
hbase是从 hadoop中分离出来的apache顶级开源项目。由...
分类:
其他好文 时间:
2014-06-05 08:43:04
阅读次数:
275
在使用Bulkload向HBase导入数据中, 自己编写Map与使用KeyValueSortReducer生成HFile时, 出现了下面的异常:
java.io.IOException: Non-increasing Bloom keys: 201301025200000000000003520000000000000500 after 20131119510000000000000001...
分类:
编程语言 时间:
2014-06-03 05:55:44
阅读次数:
359
1. 数据统计的需求
互联网上对于数据的统计,一个重要的应用就是对网站站点数据的统计,例如CNZZ站长统计、百度统计、Google Analytics、量子恒道统计等等。
网站站点统计工具无外乎有以下一些功能:
1)网站流量统计:包括PV、UV、IP等指标,这些统计指标可以以趋势图的形式展示出来,如最近一周、最近一个月等。
2)IP来源信息统计:记录各个来源IP下的访问PV...
分类:
其他好文 时间:
2014-06-03 01:33:36
阅读次数:
226
创建外部表的好处是数据可以随时从hdfs中挂载进表中使用分区的好处是可以缩短查询范围下面的例子展示了如何创建外部表CREATE EXTERNAL TABLE my_daily_report(
last_update string,
col_a string,
col_b string,
col_c string,
col_d string,
col_...
分类:
其他好文 时间:
2014-06-01 14:04:33
阅读次数:
403
今天遇到一个问题,在终端里运行newLISP脚本,一切正常,移动到crontab中就不行。即便crontab -e命令运行在同一个用户下,还是有问题。由于newLISP脚本要用到hive和hadoop,估计是环境变量的问题。所以先用newLISP shell运行(env)命令,将当前环境变量记录到文件evn.lsp中。然后在newLISP脚本中加载之。下面是env.lsp文件部分内容:(set '...
分类:
其他好文 时间:
2014-06-01 10:26:57
阅读次数:
330
就在昨天,北京时间5月30日20点多。Spark 1.0.0终于发布了:Spark 1.0.0 released
根据官网描述,Spark 1.0.0支持SQL编写:Spark SQL Programming Guide
个人觉得这个功能对Hive的市场的影响很小,但对Shark冲击很大,就像win7和winXP的关系,自相残杀嘛?
这么着急的发布1.x 版是商业行为还是货真价实的体现,让我们拭目以待吧~~~~
本文是CSDN-撸大湿原创,如要转载请注明出处,谢谢:http://blog.csdn.net...
分类:
其他好文 时间:
2014-06-01 08:55:43
阅读次数:
460
触发region
flush的因素有很多,如手动触发,memstore压力触发,memstore到达限制触发,flush时间触发等。regionserver的flush由flush实际操作步骤为
1.获得region写锁,将region的所有store执行prepare,产生snapshort,释....
分类:
其他好文 时间:
2014-05-31 21:57:30
阅读次数:
317
Java Client API
OverviewHBase是用Java写的,支持用编程语言来动态操作管理数据库,能用命令行做的都能够用API来做。主要的使用步骤例如以下:1.创建一个
Configuration 对象–从 HDFS 对象中调用 Configuration–加入 HBase 属性Con...
分类:
编程语言 时间:
2014-05-31 20:13:17
阅读次数:
370
Hbase的安装须要考虑Hadoop的版本号,即兼容性。有不足的希望能指出。下面考究官网得到的,关于hadoop版本号和hbase版本号可到下面网址中下载:http://mirror.bit.edu.cn/apache/hbaseHBase-0.92.xHBase-0.94.xHBase-0.96....
分类:
其他好文 时间:
2014-05-31 15:24:19
阅读次数:
377
Hive是基于Hadoop的开源数据仓库工具,提供了类似于SQL的HiveQL语言,使得上层的数据分析人员不用知道太多MapReduce的知识就能对存储于Hdfs中的海量数据进行分析。由于这一特性而收到广泛的欢迎。Hive的整体框架中有一个重要的模块是执行模块,这一部分是用Hadoop中MapRed...
分类:
其他好文 时间:
2014-05-30 14:23:07
阅读次数:
409