搜索关键字：hive udf，搜索到6169个结果！码迷,mamicode.com！

oracle merge into在大数据离线批处理中的应用

前言目前仅在一家公司做过大数据相关，也不太清楚其他公司情况。东家这常用的大数据离线处理基本就是sqoop导入到hive中，然后使用spark或者hive计算出结果再导出到oracle中。很多情况下是把oracle中整个表或者某个时间条件的筛选出来的数据整个删掉，再把最新的这部分数据全部导数回到or ...

分类：数据库时间：2020-05-05 21:59:35 阅读次数：102

如何找到Hive提交的SQL相对应的Yarn程序的applicationId

最近的工作是利用Hive做数据仓库的ETL转换，大致方式是将ETL转换逻辑写在一个hsql文件中，脚本当中都是简单的SQL语句，不包含判断、循环等存储过程中才有的写法，仅仅支持一些简单的变量替换，比如当前账期等。然后通过一个通用的shell脚本来执行hsql文件。该脚本是主要是调用了hive -f ...

分类：移动开发时间：2020-05-04 19:41:21 阅读次数：296

Mysql-Attack-UDF

Mysql Attack UDF [toc] 前言最近不知道为啥，整很多东西都开始往细节去研究。趁这个五一假期吧UDF提权的整个流程都给研究透先。而不是仅仅限于怎么操作就算了（感觉像一个毫无感情的测试机器）。本文主要是在参考了其他资料做的总结。因为很多前辈已经有现成的成果了。环境服务器：wi ...

分类：数据库时间：2020-05-03 18:11:33 阅读次数：72

从源码看Spark读取Hive表数据小文件和分块的问题

前言有同事问到，Spark读取一张Hive表的数据Task有一万多个，看了Hive表分区下都是3MB~4MB的小文件，每个Task只处理这么小的文件，实在浪费资源浪费时间。而我们都知道Spark的Task数由partitions决定，所以他想通过repartition(num)的方式来改变分区数， ...

分类：其他好文时间：2020-05-03 12:43:20 阅读次数：54

HIVE 分桶模式

1.分桶之前要打开 hive.enforce.bucketiong=true; 2.分桶处理的对象必须是有,有效的列 , 比如我分了三个桶,针对id , 那么就是取id的hash值 , 然后分别放入三个不同之中 ,注意不能指定数据存放在哪个桶 , 他自己会根据哪个列判断 , 你只需要保证传入的数据 ...

分类：其他好文时间：2020-05-02 12:06:26 阅读次数：61

大数据集群搭建

1、virtualbox 网卡桥接 vim /etc/sysconfig/network-scripts/ifcfj-enp0s3 onBoot=yes 2、Centos7 3、JDK1.8 4、MobaXterm 5、hadoop2.4.1 6、Hive 0.13 7、Zookeeper3.4.5 ...

分类：其他好文时间：2020-05-02 00:04:41 阅读次数：51

Hive 基础知识——01

Hive架构架构原理： 1.4.1 查询语言由于 SQL 被广泛的应用在数据仓库中，因此，专门针对 Hive 的特性设计了类 SQL 的查询语言 HQL。熟悉 SQL 开发的开发者可以很方便的使用 Hive 进行开发。 1.4.2 数据存储位置 Hive 是建立在 Hadoop 之上的，所有 H ...

分类：其他好文时间：2020-05-01 16:26:49 阅读次数：51

impala 将查询数据导出为文件格式

impala 虽然说查询速度比 hive 快很多，查询出来的数据格式也很漂亮，但是这些数据不能直接复制到excel中使用，十分不方便。在这里有一个命令可以将查询数据直接导出到文件中。 impala-shell -q "SELECT * from dw_center.order limit 20 " ...

分类：其他好文时间：2020-04-30 17:17:45 阅读次数：169

聊聊谓词下推的事

对于数仓开发来说，写好一条SQL，需要熟读Hive 源码。 FilterPPD 会把可以下推的谓词抽取出来，存入OpWalkerInfo.opToPushdownPredMap.pushdownPreds 中 JoinPPD 的主要作用就是把能够下推的谓词和不能够下推的谓词分开，将不能够下推的谓词重 ...

分类：其他好文时间：2020-04-30 13:49:07 阅读次数：65

[源码分析]从"UDF不应有状态" 切入来剖析Flink SQL代码生成 (修订版)

"Flink SQL UDF不应有状态" 这个技术细节可能有些朋友已经知道了。但是为什么不应该有状态呢？这个恐怕大家就不甚清楚了。本文就带你一起从这个问题点入手，看看Flink SQL究竟是怎么处理UDF，怎么生成对应的SQL代码。 ...

分类：数据库时间：2020-04-29 23:49:34 阅读次数：89

共6169条上一页 1 ... 38 39 40 41 42 ... 617 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)