(一)hadoop 相关安装部署1、hadoop在windows cygwin下的部署:http://lib.open-open.com/view/1333428291655http://blog.csdn.net/ruby97/article/details/7423088http://blog....
分类:
数据库 时间:
2014-07-22 22:50:55
阅读次数:
517
创建表: hive> CREATE TABLE pokes (foo INT, bar STRING); Creates a table called pokes with two columns, the first being an integer and the other a string....
分类:
其他好文 时间:
2014-07-22 22:50:54
阅读次数:
262
#### 1. 在Hive中使用show tables;等命令报错:com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Specified key was too long; max key length is 767 bytes **解决办法:** 到mysql中的hive数据库里...
分类:
其他好文 时间:
2014-07-21 10:12:36
阅读次数:
453
创建表:drop table tcreate table if not exists t (t string) partitioned by (log_date string) row format delimited fields terminated by '\t' lines terminat...
分类:
其他好文 时间:
2014-07-21 08:31:39
阅读次数:
281
常见案例一:空值产生的数据倾斜日志表有一部分的user_id为空或者是0的情况,导致在用user_id进行hash分桶时,会将日志由user_id为0或者为空的数据分到一个reduce上,导致数据倾斜;如:访户未登录时,日志中的user_id为空,用user_id和用户表的user_id进行关联的时...
分类:
其他好文 时间:
2014-07-21 00:25:23
阅读次数:
305
count(distinct key)案例explain select count(distinct session_id) from trackinfo where ds=' 2013-07-21' ;STAGE DEPENDENCIES: Stage-1 is a root stage St.....
分类:
其他好文 时间:
2014-07-20 22:16:56
阅读次数:
347
Reduce数决定中间或落地文件数,文件大小和Block大小无关。1、Reduce个数的决定因素reduce个数的设定极大影响任务执行效率,不指定reduce个数的情况下,Hive会猜测确定一个reduce个数,基于以下两个设定:参数1:hive.exec.reducers.bytes.per.re...
分类:
其他好文 时间:
2014-07-20 09:12:58
阅读次数:
335
1、Map个数的决定因素通常情况下,作业会通过input文件产生一个或者多个map数;Map数主要的决定因素有: input总的文件个数,input文件的大小和集群中设置的block的大小(在hive中可以通过set dfs.block.size命令查看,该参数不能自定义修改);文件块数拆分原则:如...
分类:
其他好文 时间:
2014-07-20 09:09:51
阅读次数:
199
最近线上的hive升级到了0.13,遇到不少问题。权限上面,设置了hive.security.authorization.createtable.owner.grants在hive0.13中,用户自己创建的表也没有权限。通过对源码的分析和debug找到了rc并fix,下面记录下。1.首先在hive0.11中和hive0.13中分别做建表测试,通过查看..
分类:
其他好文 时间:
2014-07-20 06:44:52
阅读次数:
447