目录: 一、Nginx的相关配置,以及测试数据 二、Hadoop中创建使用目录 三、Hive的日志表创建,并同步到Hbase中 1)创建自增长ID的类,并添加到Hive环境中 2)在Hive中创建日志表 3)将Nginx的日志数据导入到Hive日志表中 方法一:将本...
分类:
其他好文 时间:
2014-08-24 14:04:32
阅读次数:
246
下面以sales和things表为例。这两个表定义如下: hive> SELECT * FROM sales; Joe 2 Hank 4 Ali 0 Eve 3 Hank 2 hive> SELECT * FROM things; 2 Tie 4 Coat 3 Hat 1 Scarf 1. Inn....
分类:
其他好文 时间:
2014-08-24 00:18:31
阅读次数:
454
环境:Centos6.4 64位Hadoop2.2.0Sun JDK1.7.0_45hive-0.12.0准备工作:yum -y install lzo-devel zlib-devel gcc autoconf automake libtool开始了哦!(1)安装LZOwget http://ww...
分类:
其他好文 时间:
2014-08-23 15:18:00
阅读次数:
1180
今天有个etl开发在droppartition的时候遇到了问题,因为是使用了自己的账号,而hdfs中对应partition的文件属主是hdfs的,在删除时会因为权限问题报错,切换用户为hdfs,做droppartition的错误,还是报错,看来没这么简单。查看表的hdfs属性,目录的属主不是hdfs且目录对hdfs没..
分类:
其他好文 时间:
2014-08-23 02:29:00
阅读次数:
231
## RCFile 之前听说 RCFile 在读取数据时可以跳过不需要的列,不需要将一整行读入然后选择所需字段,所以在 Hive 中执行 `select a, b from tableA where c = 1` 这样的操作就相对比较高效。为了满足好奇心,找了...
分类:
其他好文 时间:
2014-08-22 22:39:30
阅读次数:
315
问题:有如下数据文件 city.txt (id, city, value)cat city.txt1 wh 5002 bj 6003 wh 1004 sh 4005 wh 2006 bj 1007 sh 2008 bj 3009 sh 900需要按 city 分组聚合,然后从每组数据中取出前两条va...
分类:
其他好文 时间:
2014-08-22 22:25:40
阅读次数:
455
regex insert join group cli...
分类:
其他好文 时间:
2014-08-22 14:32:28
阅读次数:
221
Hive是为了简化编写MapReduce程序而生的,使用MapReduce做过数据分析的人都知道,很多分析程序除业务逻辑不同外,程序流程基本一样。在这种情况下,就需要Hive这样的用戶编程接口。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce,Hive中的表纯逻辑,就是些表的定义等,也就是表的元数据。使用SQL实现Hive是因为SQL大家都熟悉,转换成本低,类似作用的Pig就...
分类:
其他好文 时间:
2014-08-21 19:27:44
阅读次数:
148
需求
将Oracle中的业务基础表增量数据导入Hive中,与当前的全量表合并为最新的全量表。
设计
涉及的三张表:
全量表:保存了截止上一次同步时间的全量基础数据表
增量表:增量临时表
更新后的全量表:更新后的全量数据表
步骤:
通过Sqoop将Oracle中的表导入Hive,模拟全量表和增量表
通过Hive将“全量...
分类:
数据库 时间:
2014-08-21 19:22:14
阅读次数:
455