有两种模式:cluster 和 driver 区别: cluster 模式:Driver 程序在 YARN 中运行,应用的运行结果不能在客户端显示,所以最好运行那些将结果最终保存在外部存储介质(如 HDFS、Redis、Mysql)而非 stdout 输出的应用程序,客户端的终端显示的仅是作为 YA ...
分类:
其他好文 时间:
2020-04-17 12:30:05
阅读次数:
70
问题:如果在 shuffle 的时候没有指定 reduce 的个数,那么会有多少个 reduce? 如果不指定 reduce 个数的话,就按默认的走: 1、如果自定义了分区函数 partitioner 的话,就按你的分区函数来走。 2、如果没有定义,那么如果设置了 spark.default.par ...
分类:
其他好文 时间:
2020-04-17 12:23:45
阅读次数:
70
OSPF在不同网络类型下邻居的建立方式和DR/BDR的选举。
分类:
其他好文 时间:
2020-04-17 11:09:07
阅读次数:
93
一、前提条件 1、3台虚拟机,java1.8环境配置,hadoop-2.7.7集群搭建(参见https://www.cnblogs.com/yangy1/p/12362565.html,以及https://www.cnblogs.com/yangy1/p/12367462.html中的横向扩容) 2 ...
分类:
其他好文 时间:
2020-04-17 00:28:41
阅读次数:
83
一、前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信。 1.2 Java1.8环境已经配置好 1.3 Hadoop2.7.7集群已经完成搭建,具体参见我的博客https://www.cnblogs.com/theyang/p/12363276.html 1.4 Scala软件包和Spark软 ...
分类:
其他好文 时间:
2020-04-17 00:23:32
阅读次数:
85
这里以将Apache的日志写入到ElasticSearch为例,来演示一下如何使用Python将Spark数据导入到ES中。 实际工作中,由于数据与使用框架或技术的复杂性,数据的写入变得比较复杂,在这里我们简单演示一下。 如果使用Scala或Java的话,Spark提供自带了支持写入ES的支持库,但 ...
分类:
编程语言 时间:
2020-04-17 00:06:51
阅读次数:
83
1.前提条件 1.1创建3台虚拟机,且配置好网络,建立好互信(ssh免密)。 1.2 Java1.8环境已经配置好 1.3 Hadoop集群已经完成搭建 1.4 Scala软件包和Spark软件包的下载 https://www.scala-lang.org/download/ http://spar ...
分类:
其他好文 时间:
2020-04-17 00:05:12
阅读次数:
66
# 二面:1. TCP和UDP的区别?1. 滑动窗口协议?1. 为啥TCP比UDP占用资源多?1. TCP报文格式?1. 然后又问了一下数据库的东西1. 简单问了一下数据库事务的四大特性。1. 首先是Spark怎么进行性能调优1. 过程中遇到过什么问题,怎么解决的1. 数据量有多大等1. 类似于合并... ...
分类:
编程语言 时间:
2020-04-16 15:21:08
阅读次数:
70
一、基础 https://zhuanlan.zhihu.com/p/76905282 1、读取 2、查看 - head 3、形状 - shape 4、查看索引 index 5、查看列的全部名称 columns 6、排序 https://blog.csdn.net/MsSpark/article/de ...
分类:
其他好文 时间:
2020-04-14 12:26:27
阅读次数:
59
[TOC] 我们都知道python上的一款可视化工具matplotlib,而前些阵子做一个Spark项目的时候用到了百度开源的一个可视化JS工具 Echarts,可视化类型非常多,但是得通过导入js库在Java Web项目上运行,平时用Python比较多,于是就在想有没有Python与Echarts ...
分类:
其他好文 时间:
2020-04-13 12:21:26
阅读次数:
118