这一章讲hbase的缓存机制,这里面涉及的内容也是比较多,呵呵,我理解中的缓存是保存在内存中的特定的便于检索的数据结构就是缓存。之前在讲put的时候,put是被添加到Store里面,这个Store是个接口,实现是在HStore里面,MemStore其实是它底下的小子。那它和Region
Server...
分类:
其他好文 时间:
2014-05-27 00:16:07
阅读次数:
376
因为需要统计hbase中某个特定列不为空的行数,我寻思有没有支持直接用SQL查询的,查找了下,发现有两个可以支持:一个是apache
phoenix,一个是Cloudera的Impala。如果用Impala,需要使用Cloudera的hadoop发行版。
分类:
数据库 时间:
2014-05-26 22:02:35
阅读次数:
322
如今Bigtable型(列族)数据库应用越来越广,功能也很强大。但是很多人还是把它当做关系型数据库在使用,用原来关系型数据库的思维建表、存储、查询。本文以hbase举例讲述数据模式的变化。
传统关系型数据库(mysql,oracle)数据存储方式主要如下:
图一
上图是个很典型的数据储存方式,我把每条记录分成3部分:主键、记录属性、索引字段。我们会对索引字段建立索引,达到二级索引...
分类:
数据库 时间:
2014-05-23 00:19:11
阅读次数:
301
作者在工作中遇到了类似流式数据实时接入的业务场景,所以对淘宝的实时数据仓库这一块做了一些调研和了解。本文从业务场景和设计上介绍了淘宝的TimeTunnel工具,文中的图片来自淘宝数据仓库团队交流过程中的sildes,也参考了一些相关文档。
业务背景
TimeTunnel(简称TT)是一个基于thrift通讯框架搭建的实时数据传输平台,具有高性能、实时性、顺序性、高可靠性、高可用性、可扩展性等特点(基于Hbase)。
目前TimeTunnel在阿里巴巴广泛的应用于日志收集、数据监控、广告反馈、量子统计、数据...
分类:
其他好文 时间:
2014-05-22 10:58:59
阅读次数:
334
继上一篇讲了Put和Delete之后,这一篇我们讲Get和Scan,
因为我发现这两个操作几乎是一样的过程,就像之前的Put和Delete一样,上一篇我本来只打算写Put的,结果发现Delete也可以走这个过程,所以就一起写了。Get我们打开HRegionServer找到get方法。Get的方法处理...
分类:
其他好文 时间:
2014-05-21 17:58:53
阅读次数:
344
代志远早年就职网易研究院从事MapReduce与DFS系统的自主研发,后加入支付宝数据平台负责Hadoop与HBase体系的架构设计与二次研发,支付宝流计算与分布式搜索系统的设计和研发,后成为支付宝海量计算体系架构师兼支付宝三代架构成员。现就转战于阿里巴巴集团-CDO-海量数据部门,负责创新性项目的研究和跟进,目前专注于Google第二代数据库产品MegaStore的研究和在阿里的落地。
在...
分类:
数据库 时间:
2014-05-21 17:04:40
阅读次数:
393
最近上头给我派了一个活,oracle数据导入excel,接任务的时候,我感觉比较轻松,心里想,这很简单,三下五除二,一个上午就可以搞定,因为之前实现过嘛!
但是程序在加上“大数据”烙印之后,就不是那么简单的一回事了,实现过程中,出现最常见的两个问题:超出行数限制和内存溢出!
18天的数据,总共是500w条,如何将500w条记录存入excel中,我当时想过两种实现方式:PLSQL...
分类:
其他好文 时间:
2014-05-21 15:59:54
阅读次数:
307
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
using System.Windows;
using System.Windows.Controls;
using System.Windows.Data;
using System.Windows.Documents;
us...
分类:
其他好文 时间:
2014-05-21 09:36:30
阅读次数:
302
最近由于遇到oracle控制文件的使用,虽然不是很复杂,但是从来没有用过,专门花点时间看看。点击这里查看详细1,概述:Sql Loader:
一个批量工具,将文件数据导入到数据库。可以导入一个表或者多个表,甚至可以在导入时修改数据。2,使用a,你电脑需要装Oracle,不然你是找不到Sqlldr
这...
分类:
数据库 时间:
2014-05-21 05:58:27
阅读次数:
558
主要介绍Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase,
Sqoop, Mahout, Zookeeper, Avro, Ambari, Chukwa,新增加的项目包括,YARN, Hcatalog, Oozie,
Cassandra, Hama, Whirr,...
分类:
其他好文 时间:
2014-05-21 05:55:45
阅读次数:
280