api代码示例入下 object DataFrameCase { def main(args: Array[String]): Unit = { val sparksession = SparkSession.builder().appName("DataFrameCase").master("lo ...
前段时间不小心改了host 配置,想要还原,以下是默认配置: # Host Database # # localhost is used to configure the loopback interface # when the system is booting. Do not change t ...
分类:
系统相关 时间:
2020-05-19 18:49:21
阅读次数:
78
网上看到的关于Executor,Cores和Memory的分配相关博客,先记录下来,再汇总。 <1>第一篇 Spark处理多少数据是否需要多少内存 Spark处理1Tb数据不需要1Tb的内存。 具体需要多少内存是根据executor的core数量和每次读取数据集的block大小决定的。以读取hdfs ...
分类:
其他好文 时间:
2020-05-19 16:47:03
阅读次数:
82
写在前面 分布式架构出现后,越来越多的分布式系统会面临数据一致性的问题。目前,ZooKeeper 是在解决分布式数据一致性上最成熟稳定且被大规模应用的工业级解决方案。 ZooKeeper 保证 分布式系统数据一致性的核心算法就是 ZAB 协议 (ZooKeeper Atomic Broadcast, ...
分类:
其他好文 时间:
2020-05-19 12:37:14
阅读次数:
72
Checkpoint,是Spark提供的一个比较高级的功能。有的时候啊,比如说,我们的Spark应用程序,特别的复杂,然后呢,从初始的RDD开始,到最后整个应用程序完成,有非常多的步骤,比如超过20个transformation操作。而且呢,整个应用运行的时间也特别长,比如通常要运行1~5个小时。在 ...
分类:
其他好文 时间:
2020-05-19 09:12:08
阅读次数:
88
经过一个多月来的研究实践,在亲友团的帮助下,我的第一个spark程序终于上线了,现在总结下实践历程。
分类:
其他好文 时间:
2020-05-19 01:16:57
阅读次数:
64
承接上一篇文档《Spark案例练习-打包提交》 将spark应用运行在yarn集群上 官网地址:http://spark.apache.org/docs/2.0.2/running-on-yarn.html 1. 在spark-env.sh中配置HADOOP_CONF_DIR 或者 YARN_CON ...
分类:
其他好文 时间:
2020-05-19 01:07:50
阅读次数:
53
错误思想 举个列子,当我们想要比较 一个 类型为 RDD[(Long, (String, Int))] 的RDD,让它先按Long分组,然后按int的值进行倒序排序,最容易想到的思维就是先分组,然后把Iterable 转换为 list,然后sortby,但是这样却有一个致命的缺点,就是Iterabl ...
分类:
编程语言 时间:
2020-05-18 20:48:21
阅读次数:
83
1. 4种运行模式概述图 1)本地(local)模式,用于开发测试 2)Standalone是Spark自带的,如果一个集群是Standalone的话,那么就需要在多台机器上同时部署spark环境,只要修改一台机器配置,就要同步到所有的机器上去,比较麻烦,生产环境中不采取。 3) Yarn生成环境下 ...
分类:
其他好文 时间:
2020-05-18 18:12:35
阅读次数:
67
## java最新面试题2020# 一面 1. “Spark还有Ruby啊,会的挺多,既然你啥都会点咱们就不局限于Java了”2. 聊了聊美团实习的项目,聊到了Spark,然后说到了Spark相对于MapReduce的改进,然后3. “Spark熟吗”4. “那你这个需求怎么做的”5. “那咱们就从... ...
分类:
编程语言 时间:
2020-05-18 14:31:41
阅读次数:
162