首页 > 编程语言 > 详细

Hive与MapReduce相关排序及自定义UDF函数

时间：2020-03-21 00:06:17 阅读：85 评论：0 收藏：0 [点我收藏+]

标签：src ati 数据量分区 oca deb rom test template

原文链接：

https://www.toutiao.com/i6770870821809291788/

Hive和mapreduce相关的排序和运行的参数

1.设置每个reduce处理的数据量（单位是字节）

我们在hive中查看下

技术图片

配置文件hive-site.xml.template

技术图片

我们打开配置文件可以看到

技术图片

这是256MB

技术图片

如果超过1G，将使用4个reducers

技术图片

2、设置最大运行的reduce的个数

同上我们可以在配置中找到下面的内容

技术图片

复制到记事本里，简化了描述，从配置中我们可以看到默认reduce个数是1009

技术图片

3．实际运行的reduce的个数

这个去哪里看呢？我们用之前执行过的reduce

技术图片

访问8088端口，查看历史history

技术图片

进入后在configuration中可以搜索到，可以看到我们的语句是否有reduce。

默认设置在hive中可以看到

技术图片

如果我们使用下面的排序，是否reduce的数量有关系呢？

order by 全局排序

sort by：局部排序

distribute by （底层是MR分区）

cluster by：相当于distribute by + sort by组合使用

假如我们设置成3个

技术图片

执行语句

select * from emp order by sal;

技术图片

所以对于order by 全局排序，设置多个reduce的没有太大作用。

执行语句

Insert overwrite local directory ‘/data/hivetest/export_local_emp‘ select * from emp sort by sal desc;

查看结果，reduce是3个

技术图片

生成文件

技术图片

查看文件内容，可以看到每个都排序了

技术图片

所以对于sort by 局部排序，设置多个reduce的是有作用的。

执行语句

insert overwrite local directory ‘/opt/hivetest/distribute_test‘ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t‘ select * from emp distribute by deptno sort by sal ;

技术图片

我们查看文件

技术图片

查看文件内容，都已经排序了

技术图片

所以对于distribute by 局部排序，设置多个reduce的是有作用的。有两个注意的地方

（1）可以按照指定的字段进行分区

（2）先分区后排序，一般和sort by联合使用

执行语句

insert overwrite local directory ‘/data/hivetest/cluster_test‘ ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘\t‘ select * from emp cluster by sal ;

技术图片

查看文件

技术图片

查看内容

技术图片

所以对于cluster by 局部排序，设置多个reduce的是有作用的，排序只能降序排序，不能指定排序规则

自定义函数（UDF）一进一出

实现一个功能，转换大小写，

首先创建一个maven项目

技术图片

添加依赖

下面是依赖的主要内容

org.apache.hadoop

hadoop-client

2.7.3

org.apache.hive

hive-exec

1.2.1

org.apache.hive

hive-jdbc

1.2.1

技术图片

创建一个类

技术图片

编写代码

技术图片

编写一个测试方法，测试代码

技术图片

将写好的代码打成jar包，上传linx

技术图片

一直点击下一步，其中注意主类的选择

技术图片

将jar添加到hive里面去

add jar /data/hivetest/hive_udf.jar;

将包上传

技术图片

我们进入hive，使用db_deptemp库

技术图片

执行命令

技术图片

list jars 和 delete jar 分别是显示jar和删除jar

技术图片

创建临时函数

create temporary function convert_bl as ‘com.xlglvc.xxx.mapredece.hiveudf.TestHiveUDF‘;

技术图片

可以利用show functions查看函数

技术图片

我们查看已有表的数据，可以看到很多大写的名字

技术图片

执行我们的函数就可以了

技术图片

Hive与MapReduce相关排序及自定义UDF函数

标签：src ati 数据量分区 oca deb rom test template

原文地址：https://www.cnblogs.com/bqwzy/p/12535641.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！