码迷,mamicode.com
首页 > 其他好文 > 详细

Hive分区表与分桶

时间:2015-07-15 19:17:13      阅读:170      评论:0      收藏:0      [点我收藏+]

标签:分区表   hive   分桶   

分区表

在Hive Select查询中,一般会扫描整个表内容,会消耗很多时间做没必要的工作。
分区表指的是在创建表时,指定partition的分区空间。

分区语法

create table tablename
name string
)
partitioned by(key type,…)

create table if not exists employees(
name string,
salary string,
subordinates array<string>,
deductions map<string,float>,
address struct<street:string,city:string,state:string,zip:int>
)
partitioned by (dt string,type string)
row format delimited fields terminated by ‘\t‘ 
collection items terminated by ‘,‘
map keys terminated by ‘:‘
lines terminated by ‘\n‘ 
stored as textfile
;

技术分享

分区表操作
增加分区

Alter table employees add if not exists partition(country=‘xxx‘[,state=‘yyyy‘])
Alter table employees add if not exists partition(dt=‘20140715‘,type=‘test‘);

技术分享

删除分区

Alter table employees drop if exists partition(country=‘xxx‘[,state=‘yyyy’)

Hive分桶

对于每一个表(table)或者分区,Hive可以进一步组织成桶,也就是说捅是更为细粒度的数据范困划分。

Hive是针对某一列进行分捅。

Hive采用对列值哈希,然后除以捅的个数求余的方式决定该条记录存放在哪个桶当中。

好处
获得更高的查询处理效率。
使取样(sampling)更高效

分桶语法

create table bucketed_user(
id string ,
name string
)
clustered by (id) sorted by (name) into 4 buckets
row format delimited fields terminated by ‘\t‘ 
stored as textfile;

设置

set hive.enforce.bucketing = true;

插入数据

insert overwrite table bucketed_user select addr ,name from testtable;

技术分享

Hive分区与分桶比较
技术分享

版权声明:本文为博主原创文章,未经博主允许不得转载。

Hive分区表与分桶

标签:分区表   hive   分桶   

原文地址:http://blog.csdn.net/scgaliguodong123_/article/details/46895373

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!