Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hiv...
分类:
其他好文 时间:
2014-08-14 16:22:48
阅读次数:
244
sqoop从oracle定时增量导入数据到hive感谢:http://blog.sina.com.cn/s/blog_3fe961ae01019a4l.htmlhttp://f.dataguru.cn/thread-94073-1-1.html sqoop.metastore.client.reco...
分类:
数据库 时间:
2014-08-14 16:09:48
阅读次数:
330
Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:3、RCFile:facebook开发的一个集行存储和列存储的优点于一身,压缩比更高,读取列更快,它在mr环境中大规模数据处理中扮演着重要的角色;是一种行列存储...
分类:
其他好文 时间:
2014-08-14 16:01:08
阅读次数:
283
Array一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ...
分类:
其他好文 时间:
2014-08-14 15:56:58
阅读次数:
186
order by1、order by会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局排序); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;2、hive.mapred.mode(默认值是nonstrict)对order by的影响 .....
分类:
其他好文 时间:
2014-08-13 21:48:17
阅读次数:
481
本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [.....
分类:
其他好文 时间:
2014-08-13 18:30:17
阅读次数:
334
hadoop2 hive0.13.0 hbase 0.98.2版本集成错误总结...
分类:
其他好文 时间:
2014-08-13 15:01:16
阅读次数:
246
在使用命令导数据过程中,出现如下错误sqoop import --hive-import --connect jdbc:oracle:thin:@192.168.29.16:1521/testdb --username NAME --passord PASS --verbose -m 1 --tab...
分类:
数据库 时间:
2014-08-13 00:36:34
阅读次数:
602
Hive 运行架构
由Facebook开源,最初用于解决海量结构化的日志数据统计问题:ETL工具;
构建于Hadoop的HDFS和MapReduce智商,用于管理和查询结构化/非结构化数据的数据仓库;
设计目的是让SQL技能良好,但Java技能较弱的分析师可以查询海量数据:
使用HQL作为查询接口;
使用HDFS作为存储底层;...
分类:
其他好文 时间:
2014-08-12 19:05:44
阅读次数:
314
Phoenix(sql on hbase)简介
介绍:
Phoenix is a SQL skin over HBase delivered as a client-embedded JDBC driver targeting low latency queries over HBase data. Phoenix takes your SQL query, compile...
分类:
数据库 时间:
2014-08-11 21:28:33
阅读次数:
589