hive> select product_id, track_time from trackinfo limit 5; Total MapReduce jobs = 1Launching Job 1 out of 1Number of reduce tasks ...
分类:
编程语言 时间:
2014-08-08 17:52:46
阅读次数:
313
Hive UDF整理(可以直接在mysql上测试,hive中没有伪表,需要手动创建,反应慢)字符串函数字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length(‘abcedfg’) from dual;7...
分类:
其他好文 时间:
2014-08-08 12:24:45
阅读次数:
466
在Hive中,需要实现Hive中的函数无法实现的功能时,就可以用Streaming来实现。其原理可以理解成:用HQL语句之外的语言,如Python、Shell来实现这些功能,同时配合HQL语句,以实现特殊的功能。
比如,我有一张不同网站访问的日志表,其中有两个列是url和ref,分别代表当前访问的网址和来源地址,我想要查看用户的来源,即看用户都是从那些网站跳到这些网站上去的,这里有些网站可能域名...
分类:
编程语言 时间:
2014-08-07 23:21:44
阅读次数:
448
Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。将数据从ORACLE中抽取数据,经过hive进行分析转换,最后存放到ORACLE中去。本案例是纯demo级别,练手使用一、需求将emp和dept表的数据分析最后存放到result表。emp和de...
分类:
其他好文 时间:
2014-08-06 22:14:52
阅读次数:
371
示例数据准备hive中创建dept表create table dept(deptno int,dname string,loc string)row format delimited fields terminated by '\t' lines terminated by '\n' stored ...
分类:
数据库 时间:
2014-08-06 21:58:32
阅读次数:
492
导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \--username SCOTT --password tiger \--table EMP \--hive-import --create-hive....
分类:
数据库 时间:
2014-08-06 21:47:42
阅读次数:
330
hive中的正则可以用,但是有所区别,区别在于原来的‘\’ 转义,这里变成了双斜杠了‘\\’...
分类:
其他好文 时间:
2014-08-05 19:20:30
阅读次数:
277
请问下,如果有多个统计,要统计的数据都一样,每个统计只是group by 的key不一样,怎样做,才能让这些统计最快完成? 恩,比如有10个统计,每个统计都是读取的同一份数据,但是统计的维度不一样,就是groupby的key不一样你们都是怎么处理的?语句类似这个:: from( selectk1,k...
分类:
其他好文 时间:
2014-08-05 15:22:49
阅读次数:
352
问题:比如查询一个用户连续登陆天数超过7天的用户,或者查询连续在7天的某个时间段登陆的用户。 网上查询sql的语句的用法,对于hive来说也可以试试,查询词"SQL 连续天数查询" 如果使用hadoop如何解决?? 思路(以连续N天登陆为例): 1、计算出每天登陆的用户集合 1、使...
分类:
其他好文 时间:
2014-08-05 10:49:29
阅读次数:
826
本文主要介绍了Spark SQL里目前的CLI实现,代码之后肯定会有不少变动,所以我关注的是比较核心的逻辑。主要是对比了Hive CLI的实现方式,比较Spark SQL在哪块地方做了修改,哪些地方与Hive CLI是保持一致的。
基本上Spark SQL在CLI这块的实现很靠近Hive Service项目里的CLI模块,主要类继承体系、执行逻辑差不多都一样。Spark SQL修改的关键逻辑在CLIService内的SessionManager内的OperationManager里,将非元数据查询操作的q...
分类:
数据库 时间:
2014-08-05 00:44:58
阅读次数:
939