hive设置fs.hdfs.impl.disable.cache=true时,使用insert overwrite命令更改分区数据时会出现把分区的路径修改掉异常,根据源码排查了下出现该问题的原因!...
分类:
其他好文 时间:
2015-01-08 11:17:48
阅读次数:
343
处理后的数据可直接放到hive或者mapreduce程序来统计网络数据流的信息,比如当前实现的是比较简单的http的Get请求的统计第一个mapreduce:将时间、十六进制包头信息提取出来,并放在一行(这里涉及到mapreduce的键值对的对多行的特殊处理,是个值得注意的地方)主要遇到两个问题: ...
分类:
其他好文 时间:
2015-01-07 20:42:16
阅读次数:
193
需求:将hive数据库中的TBLS表导出到HDFS之上; $SQOOP2_HOME/bin/sqoop.sh client sqoop:000> set server --host hadoop000 --port 12000 --webapp sqoopServer is set successf...
分类:
数据库 时间:
2015-01-07 18:26:42
阅读次数:
190
Zookeeper是什么? Zookeeper故名思议动物管理员,它是拿来管大象(Hadoop)、蜜蜂(Hive)、小猪(Pig)的管理员,Apache Hbase和Apache Solr以及LinkedIn sensei等项目都采用到了Zookeeper。Zookeeper是一个分布式的,开放源....
分类:
其他好文 时间:
2015-01-07 18:16:30
阅读次数:
131
Hive 是基于Hadoop 构建的一套数据仓库分析系统,它提供了丰富的SQL查询方式来分析存储在Hadoop 分布式文件系统中的数据,可以将结构 化的数据文件映射为一张数据库表,并提供完整的SQL查询功能,可以将SQL语句...
分类:
数据库 时间:
2015-01-07 13:22:27
阅读次数:
323
通过HQL语句
可以将hive 中表的数据生成到指定的目录。
有时候 我们可以利用hive来生成统计的中间文件(比源文件小的多的)
方法有如下2种:
1.INSERT OVERWRITE LOCAL DIRECTORY
将结果输出到指定的目录:
生成的文件数 和redurcer的数目的一样的
在hive下面执行
INSERT OVERWR...
分类:
其他好文 时间:
2015-01-07 10:59:45
阅读次数:
243
对于每一个表(table)或者分区,Hive可以进一步组织成桶。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希,然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。采用桶能够带来一些好处,比如JOIN操作。对于JOIN操作两个表有一个相同的列,如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以,可以大大较少JOIN的数据量。
hive中table可以拆分成...
分类:
其他好文 时间:
2015-01-07 10:58:31
阅读次数:
160
1运行环境说明... 31.1硬软件环境... 31.2机器网络环境... 32书面作业1:搭建Hive环境... 32.1书面作业1内容... 32.2搭建过程... 42.2.1 安装MySql数据库... 42.2.2 安装Hive. 102.2.3 验证部署... 153问题解决... 17...
分类:
数据库 时间:
2015-01-07 09:16:39
阅读次数:
310
今天在使用Hive查询某分析数据最大值的时候,出现了一定的问题,hive中现象如下:
Caused by: java.io.FileNotFoundException://http://slave1:50060/tasklog?attemptid=attempt_201501050454_0006_m_00001_1
然后查看一下jobtracker的日志:
20...
分类:
其他好文 时间:
2015-01-06 15:41:24
阅读次数:
212
1、主要学习hadoop中的四大框架:hdfs、mapreduce、hive、hbase。这四大框架是hadoop最最核心的,学习难度最大的,也是应用最广泛的。2、熟悉了解hadoop基本知识及其所需要的知识例如java基础、linux环境、linux常用命令3、hadoop一些基本知识:hadoo...
分类:
其他好文 时间:
2015-01-06 15:21:31
阅读次数:
187