mapred-default.xml: 版本 参数位置 参数名 默认值 说明 cdh5.0.1 mapred-default.xml mapred.reduce.tasks(mapreduce.job.reduces) 1 默认启动的reduce数。通过该参数可以手动修改reduce的个数 mapr ...
分类:
其他好文 时间:
2020-07-10 15:35:12
阅读次数:
74
1、Spark是什么 Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集 2、Spark核心概念 RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成: 一组partition 每个partition的计算函数 所 ...
分类:
其他好文 时间:
2020-07-06 19:30:48
阅读次数:
57
我这里是MapReduce导出的数据,MapReduce导出的数据中,Key和Value之间用制表符分隔的,可以直接作为表格型数据进行操作,复制一下导出的数据 1. 首先在Matlab工作区创建一个元胞型的变量 2. 然后复制导出的数据 3. 在变量区选择,粘贴Excel数据,就创建好了 如图所示 ...
分类:
其他好文 时间:
2020-06-26 22:08:29
阅读次数:
80
常规的: 1、过早的过滤字段、只选用需要的列、要加分区 2、join 小表放左边 set hive.exec.reducers.max=200; set mapred.reduce.tasks= 200; 增大Reduce个数 set hive.groupby.mapaggr.checkinterv ...
分类:
数据库 时间:
2020-06-22 15:34:57
阅读次数:
75
1. 引入 开源Apache Hudi项目为Uber等大型组织提供流处理能力,每天可处理数据湖上的数十亿条记录。 随着世界各地的组织采用该技术,Apache开源数据湖项目已经日渐成熟。 Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个数据 ...
分类:
Web程序 时间:
2020-06-21 13:52:56
阅读次数:
166
最近学习大数据相关的知识,便于对学习知识进行整理记忆,特将学习过程中的一些内容记录于此。 本地环境: Linux系统:Centos 7(最小安装) 内存:4G CPU: 2 网卡:2(IP:10.0.2.5、192.168.56.200) JDK版本:1.8 Hadoop版本:3.2.1 一、虚拟机 ...
分类:
其他好文 时间:
2020-06-18 12:38:35
阅读次数:
45
4个site.xml文件和 3个env.sh文件和1个slave文件 1,core-site.xml 2,hdfs-site.xml 3,mapred-site.xml 4,yarn-site.xml 5,hadoop-env.sh 6,mapred-env.sh 7,yarn-env.sh 8,s ...
分类:
其他好文 时间:
2020-06-14 17:07:49
阅读次数:
141
恢复内容开始 大数据的分布式计算框架目前使用的最多的就是hadoop的mapReduce和Spark,mapReducehe和Spark之间的最大区别是前者较偏向于离线处理,而后者重视实现性,下面主要介绍mapReducehe和Spark两者的shuffle过程。 MapReduce的Shuffle ...
分类:
其他好文 时间:
2020-06-08 19:17:29
阅读次数:
88
找到hadoop安装目录下$HADOOP_HOME/etc/mapred-site.xml,增加以下代码 <property> <name>yarn.app.mapreduce.am.env</name> <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value ...
分类:
移动开发 时间:
2020-05-28 16:35:18
阅读次数:
115
1.幸运而匆忙的一面 一面完等了差不多半个月才突然接到二面面试官的电话。 一面可能是简历面,所以问题比较简单。 ArrayList和LinkedList区别? ArrayList 是一个可改变大小的数组。 当更多的元素加入到ArrayList中时,其大小将会动态地增长。内部的元素可以直接通过get与 ...
分类:
编程语言 时间:
2020-05-26 12:00:44
阅读次数:
93