示例数据准备hive中创建dept表create table dept(deptno int,dname string,loc string)row format delimited fields terminated by '\t' lines terminated by '\n' stored ...
分类:
数据库 时间:
2014-08-06 21:58:32
阅读次数:
492
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \--username SCOTT --password tiger \--table EMP \--hive-import --create-hive....
分类:
数据库 时间:
2014-08-06 21:47:42
阅读次数:
330
hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’...
分类:
其他好文 时间:
2014-08-05 19:20:30
阅读次数:
277
请问下,如果有多个统计,要统计的数据都一样,每个统计只是group by 的key不一样,怎样做,才能让这些统计最快完成? 恩,比如有10个统计,每个统计都是读取的同一份数据,但是统计的维度不一样,就是groupby的key不一样你们都是怎么处理的?语句类似这个:: from( selectk1,k...
分类:
其他好文 时间:
2014-08-05 15:22:49
阅读次数:
352
问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使...
分类:
其他好文 时间:
2014-08-05 10:49:29
阅读次数:
826
本文主要介绍了Spark SQL里目前的CLI实现,代码之后肯定会有不少变动,所以我关注的是比较核心的逻辑。主要是对比了Hive CLI的实现方式,比较Spark SQL在哪块地方做了修改,哪些地方与Hive CLI是保持一致的。
基本上Spark SQL在CLI这块的实现很靠近Hive Service项目里的CLI模块,主要类继承体系、执行逻辑差不多都一样。Spark SQL修改的关键逻辑在CLIService内的SessionManager内的OperationManager里,将非元数据查询操作的q...
分类:
数据库 时间:
2014-08-05 00:44:58
阅读次数:
939
首先所有的输入格式都继承FileInputFormat,对于TextFile和SequenceFile有对应的TextInputFormat和SequenceFileInputFormat。我们先来看一下TextInputFormat的实现:publicclassTextInputFormatextendsFileInputFormat<LongWritable,Text>
implementsJobConfigurable{
p..
分类:
其他好文 时间:
2014-08-04 18:17:29
阅读次数:
677
Apache Crunch是FlumeJava的实现,为不太方便直接开发和使用的MapReduce程序,开发一套MR流水线,具备数据表示模型,提供基础原语和高级原语,根据底层执行引擎对MR Job的执行进行优化。从分布式计算角度看,Crunch提供的许多计算原语,可以在Spark、Hive、Pig等地方找到很多相似之处,而本身的数据读写,序列化处理,分组、排序、聚合的实现,类似MapReduce各阶段的拆分都可以在Hadoop里找到影子。
本文介绍Crunch在数据表示模型、操作原语、序列化处理方面的设计和...
分类:
其他好文 时间:
2014-08-03 18:02:06
阅读次数:
267
bin/hive 提示"xxx Illegal Hadoop Version: Unknown (expected A.B.* format)"类似这样的问题,经过查看代码 public static String getMajorVersion() { String vers = Versi...
分类:
其他好文 时间:
2014-08-03 17:46:15
阅读次数:
837
Hadoop2/cdh4集群安装CDH是Cloudera完全开源的Hadoop分布式系统架构,为了满足企业的需求而特别构建的系统。即一个开源的企业级分布式存储系统。全称:ClouderaHadoop。它是在ApacheHadoop基础上打入了很多patch。使之性能更好,更加满足生产环境。Hadoop介绍Hadoop是apache的..
分类:
其他好文 时间:
2014-08-02 07:45:03
阅读次数:
366