题目三:使用Spark Core 统计文件中以spark开头的单词中,每个单词出现的次数(共计30分) spark-core hadoop linux java spark-sql storm html css vue spark spring springboot struts spark-hiv ...
分类:
其他好文 时间:
2020-05-26 22:06:21
阅读次数:
102
最近几年Lambda表达式风靡于编程界. 很多现代编程语言都把它作为函数式编程的基本组成部分. 基于JVM的编程语言如Scala,Groovy还有Clojure把它们作为关键部分集成在语言中.现在Java8也加入了它们的行列. 有趣的是,对于JVM来说,Lambda表达式是完全不可见的,并没有匿名函 ...
分类:
编程语言 时间:
2020-05-26 20:52:39
阅读次数:
90
shuffle 和 stage shuffle 是划分 DAG 中 stage 的标识,同时影响 Spark 执行速度的关键步骤. RDD 的 Transformation 函数中,又分为窄依赖(narrow dependency)和宽依赖(wide dependency)的操作.窄依赖跟宽依赖的区 ...
分类:
其他好文 时间:
2020-05-26 18:22:19
阅读次数:
71
分布式缓存 分布式缓存的思想在hadoop和spark中都有体现,Flink 提供的分布式缓存类似 Hadoop,目的是为了在分布式环境中让每一个 TaskManager 节点保存一份相同的数据或者文件,当前计算节点的 task 就像读取本地文件一样拉取这些配置。 比如在进行表与表 Join 操作时 ...
分类:
其他好文 时间:
2020-05-25 19:29:56
阅读次数:
60
unclean.leader.election.enable 为true的话,意味着非ISR集合的broker 也可以参与选举,这样有可能就会丢数据,spark streaming在消费过程中拿到的 end offset 会突然变小,导致 spark streaming job挂掉。如果unclea ...
分类:
其他好文 时间:
2020-05-25 14:01:02
阅读次数:
89
跑spark job的时候碰到了错误: 这是因为nmPrivate目录没有权限访问引起的。 参考: "https://www.oschina.net/question/2288283_2134188" ...
分类:
其他好文 时间:
2020-05-25 09:22:14
阅读次数:
74
Scala 学习 样例类和模式匹配 1.样例类 样例类是Scala用来对对象进行模式匹配而并不用大量样板代码的方式。 样例类使用case作为修饰符,其特点如下: 1.添加一个跟类同名的工厂方法,用于对象构造 2.参数列表中参数隐式获得一个val前缀 3.编译器会添加一个copy方法用于制作修改过的拷 ...
分类:
其他好文 时间:
2020-05-25 00:04:56
阅读次数:
55
一般来说,一个spark程序包含两种 JVM 程序,Dirver 和 Executor。Dirver 是主要的控制程序,负责创建 context,提交任务,那 job 转换为 task 并且协调 task 在 executor 中的执行。Executor 主要是负责执行计算任务并且将结果返回给 Dr ...
分类:
其他好文 时间:
2020-05-24 23:52:11
阅读次数:
70
object Test { def main(args: Array[String]) { try { val f = new FileReader("input.txt") } catch { case ex: FileNotFoundException =>{ println("Missing ...
分类:
其他好文 时间:
2020-05-24 22:31:48
阅读次数:
82
Scala开发坏境设置(IDEA) 1、下载scala开发环境 进入scala官网,下载相关安装包。 https://www.scala lang.org/ 下拉看到相应选项:windows可以选择msi或者zip版本。 2、配置环境变量 选择msi版不需要配置,跳过。 zip版本解压,将scala ...
分类:
其他好文 时间:
2020-05-24 19:13:40
阅读次数:
51