广播变量object Main { def main(args: Array[String]): Unit = { val sparkConf = new SparkConf().setAppName("readMysql").setMaster("local[2]") val sparkConte ...
分类:
其他好文 时间:
2020-07-19 11:44:16
阅读次数:
62
https://www.cse.unsw.edu.au/~cs9313/20T2/slides/L6.pdf Table recall: 1. rows: entity 2. columns: attributes Spark SQL: 1. Spark SQL is not about sql, ...
分类:
数据库 时间:
2020-07-19 00:39:19
阅读次数:
98
前言 贪心算法,记得学的时候还是大学的时候,再次来总结一下吧。 贪心算法并不是指具体的固定代码,而是指一种思路,加入我们每次都选最好的选择,那么很大可能会得到最好的结果。 题目: 正文 思路,加入把k1到k5轮询一遍,发现k1、k2、k3可以覆盖范围最多,随便取一个,假设取k1。 那么剩下广播地区就 ...
分类:
编程语言 时间:
2020-07-18 00:51:35
阅读次数:
67
一.命令行方式 1.打开命令行 2.输入输入命令:ifconfig en0 3.回车,即可: en0: flags=8863<UP,BROADCAST,SMART,RUNNING,SIMPLEX,MULTICAST> mtu 1500 options=400<CHANNEL_IO> ether 90 ...
分类:
系统相关 时间:
2020-07-17 09:34:56
阅读次数:
88
● 系统环境说明 Linux环境:centos7.4 EMR:3.0.0 Java:1.8.0_112 ● 集群配置 机器数量:50 内存:128G 硬盘:100T CPU核心数:32C 问题 SQL中使用了LEFT JOIN,在执行过程中遇到以下报错: java.lang.RuntimeExcep ...
分类:
其他好文 时间:
2020-07-17 01:24:45
阅读次数:
119
发现spark集群重启突然异常无法正常提供服务,两个master都没有人正常起来提供服务,不是防火墙规则导致的,不是因为更改端口导致的1.异常情况:spark-master报错:20/07/1616:52:35WARNClientCnxn:Session0x57355eb34540d0cforserverhadoop5/"ip":7072,unexpectederror,clo
分类:
数据库 时间:
2020-07-17 01:17:59
阅读次数:
135
pandas的apply函数是自动根据function遍历每一个数据,然后返回一个数据结构为Series的结果 DataFrame.apply(func, axis=0, broadcast=False, raw=False, reduce=None, args=(), **kwds) 参数解释: ...
分类:
移动开发 时间:
2020-07-16 12:31:46
阅读次数:
104
什么是Shuffle 在RDD中,将每个相同key的value聚合起来。相同key的value可能在不同partition,也可能在不同节点。因此shuffle操作会影响多个节点。 常见的shuffle操作有:groupByKey(),reduceBykey()等。 Shuffle Write和Re ...
分类:
其他好文 时间:
2020-07-16 10:12:36
阅读次数:
63
Hadoop原生的计算框架MapReduce,简单概括一下:进程量级很重,启动很慢,但能承载的数据量很大,效率相较于Spark微批处理和Flink实时来讲很慢,Shuffle任何一个写MR同学都必须掌握的东西,说难不难,说简单也不简单 MapReduce程序的五个阶段: input map shuf ...
分类:
其他好文 时间:
2020-07-15 15:53:30
阅读次数:
58
1.Hadoop (1)安装配置 基础只需要配置core-site.xml和hdfs-site.xml就行。 参考: https://www.jianshu.com/p/aa8cfaa26790【这个教程的core-site.xml和hdfs-site.xml的内容弄反了,交换一下就行】 http: ...