hadoop 学习笔记:mapreduce框架详解 开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研...
分类:
其他好文 时间:
2014-08-28 21:18:16
阅读次数:
355
今天在centos6.3上搭建了hadoop+hive+spark系统,在运行/usr/local/spark-1.0.0/bin/spark-shell出现找不到hive相关的类,于是修改了spark-env.sh在spark_classpath里添加了hive的库路径exportSPARK_CLASSPATH=/usr/local/spark-1.0.0/lib_managed/jars/spark-assembly-1.0.0-..
分类:
其他好文 时间:
2014-08-28 15:00:30
阅读次数:
339
orderby sort by distribute by的优化...
分类:
其他好文 时间:
2014-08-28 13:19:09
阅读次数:
294
知识点:1、Hive复合数据类型:array collect_set collect_list array_contains sort_array2、lateral view explode(array) lateral view out需求: click_log : ...
分类:
其他好文 时间:
2014-08-27 20:18:48
阅读次数:
1808
需求订单有5个状态:创建、捡货、发送、送达、取消统计:创建和捡货之间不能操作2小时,创建到发送时间不能操作4小时,创建到送达之间不能超过48小时。知识点1)external table2)desc formatted的使用3)virtual column4)Alter FILEFORMAT5)COA...
分类:
其他好文 时间:
2014-08-27 16:20:08
阅读次数:
3508
永久自定义hive函数 1:做这件事的原因: 有一些函数是比较基础的,公用的,每次都要create?temporary?function麻烦了,这样的基础函数需要直接集成到hive中去,避免每次都要创建。 2:步骤 本人拥有一个账户z...
分类:
其他好文 时间:
2014-08-26 17:50:56
阅读次数:
281
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH2....
分类:
数据库 时间:
2014-08-25 22:31:04
阅读次数:
589
引言:
上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程...
分类:
其他好文 时间:
2014-08-25 19:18:54
阅读次数:
289
1.下载spark源码,在spark源码目录下面有个make-distribution.sh文件,修改里面的参数,使编译后能支持hive,修改后执行该文件。(要预先安装好maven才能编译)。2.将编译好的spark源码部署到机器上,然后将hive/conf中的hive-site.xml拷贝到spa...
分类:
其他好文 时间:
2014-08-25 10:02:34
阅读次数:
271
数据表大概150M,但是只有几个字段,导致行数特别多,当使用正则表达式去匹配时执行较慢。解决思路:增大map数; //设置reduce数为150,将原表分成150份,map数无法直接设置,因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map...
分类:
其他好文 时间:
2014-08-24 14:11:33
阅读次数:
390