hadoop是一种分布式系统的平台,通过它可以很轻松的搭建一个高效、高质量的分布系统,而且它还有许多其它的相关子项目,也就是对它的功能的极大扩充,包括Zookeeper,Hive,Hbase等。MapReduce是hadoop的核心组件之一,hadoop要分布式包括两部分,一是分布式文件系统hdfs,一部是..
分类:
其他好文 时间:
2014-08-17 01:11:02
阅读次数:
241
本文所用环境为3台hadoop2.2,hbase已经安装完毕,具体安装可参照前两篇文章。hive适用的元数据库为mysql,所以master上要安装mysql,用系统自带的即可,这里不在详述。(1)安装hive解压#tarzvxfhive-0.12.0.tar.gz-C/usr
#cd/usr
#mvhive-0.12.0hive2.替换jar包,保持hbase0.96..
分类:
其他好文 时间:
2014-08-16 09:49:41
阅读次数:
303
hive按当天日期建立分区表 | 动态往日期分区插入数据...
分类:
其他好文 时间:
2014-08-15 19:39:10
阅读次数:
352
一、 Hive join优化
1. 尽量将小表放在join的左边,我们这边使用的hive-0.12.0,所以是自动转化的,既把小表自动装入内存,执行map side join(性能好), 这是由参数hive.auto.convert.join=true 和hive.smalltable.filesize=25000000L)参数控制(默认是25M),如果表文件大小在25M左右,可...
分类:
其他好文 时间:
2014-08-15 17:50:39
阅读次数:
272
Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv...
分类:
其他好文 时间:
2014-08-14 16:22:48
阅读次数:
244
sqoop从oracle定时增量导入数据到hive感谢:http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.htmlhttp://f.dataguru.cn/thread-94073-1-1.html sqoop.metastore.client.reco...
分类:
数据库 时间:
2014-08-14 16:09:48
阅读次数:
330
Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:3、RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色;是一种行列存储...
分类:
其他好文 时间:
2014-08-14 16:01:08
阅读次数:
283
Array一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ...
分类:
其他好文 时间:
2014-08-14 15:56:58
阅读次数:
186
order by1、order by会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局排序); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;2、hive.mapred.mode(默认值是nonstrict)对order by的影响 .....
分类:
其他好文 时间:
2014-08-13 21:48:17
阅读次数:
481