码迷,mamicode.com
首页 >  
搜索关键字:hive    ( 5904个结果
hadoop 学习笔记:mapreduce框架详解
hadoop 学习笔记:mapreduce框架详解   开始聊mapreduce,mapreduce是hadoop的计算框架,我 学hadoop是从hive开始入手,再到hdfs,当我学习hdfs时候,就感觉到hdfs和mapreduce关系的紧密。这个可能是我做技术研...
分类:其他好文   时间:2014-08-28 21:18:16    阅读次数:355
spark 执行诡异问题
今天在centos6.3上搭建了hadoop+hive+spark系统,在运行/usr/local/spark-1.0.0/bin/spark-shell出现找不到hive相关的类,于是修改了spark-env.sh在spark_classpath里添加了hive的库路径exportSPARK_CLASSPATH=/usr/local/spark-1.0.0/lib_managed/jars/spark-assembly-1.0.0-..
分类:其他好文   时间:2014-08-28 15:00:30    阅读次数:339
hive 的分隔符、orderby sort by distribute by的优化
orderby sort by distribute by的优化...
分类:其他好文   时间:2014-08-28 13:19:09    阅读次数:294
Hive综合案例分析之用户上网行为分析
知识点:1、Hive复合数据类型:array collect_set collect_list array_contains sort_array2、lateral view explode(array) lateral view out需求: click_log : ...
分类:其他好文   时间:2014-08-27 20:18:48    阅读次数:1808
Hive综合案例分析之不正常订单状态统计
需求订单有5个状态:创建、捡货、发送、送达、取消统计:创建和捡货之间不能操作2小时,创建到发送时间不能操作4小时,创建到送达之间不能超过48小时。知识点1)external table2)desc formatted的使用3)virtual column4)Alter FILEFORMAT5)COA...
分类:其他好文   时间:2014-08-27 16:20:08    阅读次数:3508
hive添加永久自定义函数
永久自定义hive函数 1:做这件事的原因: 有一些函数是比较基础的,公用的,每次都要create?temporary?function麻烦了,这样的基础函数需要直接集成到hive中去,避免每次都要创建。 2:步骤 本人拥有一个账户z...
分类:其他好文   时间:2014-08-26 17:50:56    阅读次数:281
sqoop 从oracle导数据到hive中,date型数据时分秒截断问题
oracle数据库中Date类型倒入到hive中出现时分秒截断问题解决方案1.问题描述: 用sqoop将oracle数据表倒入到hive中,oracle中Date型数据会出现时分秒截断问题,只保留了‘yyyy-MM-dd',而不是’yyyy-MM-dd HH24:mi:ss'格式的,后面的‘HH2....
分类:数据库   时间:2014-08-25 22:31:04    阅读次数:589
【甘道夫】实现Hive数据同步更新的shell脚本
引言: 上一篇文章《【甘道夫】Sqoop1.4.4 实现将 Oracle10g 中的增量数据导入 Hive0.13.1 ,并更新Hive中的主表》http://blog.csdn.net/u010967382/article/details/38735381 描述了增量更新Hive表的原理和Sqoop,Hive命令,本文基于上一篇文章的内容实现了shell脚本的编写,稍加修改就可用于实际工程...
分类:其他好文   时间:2014-08-25 19:18:54    阅读次数:289
spark hive结合杂记
1.下载spark源码,在spark源码目录下面有个make-distribution.sh文件,修改里面的参数,使编译后能支持hive,修改后执行该文件。(要预先安装好maven才能编译)。2.将编译好的spark源码部署到机器上,然后将hive/conf中的hive-site.xml拷贝到spa...
分类:其他好文   时间:2014-08-25 10:02:34    阅读次数:271
hive 分配map数过少导致任务执行慢
数据表大概150M,但是只有几个字段,导致行数特别多,当使用正则表达式去匹配时执行较慢。解决思路:增大map数; //设置reduce数为150,将原表分成150份,map数无法直接设置,因为和输入文件数和文件大小等几个参数决定set mapred.reduce.tasks = 150;//在map...
分类:其他好文   时间:2014-08-24 14:11:33    阅读次数:390
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!