前言 消息队列:可以将原本同步执行的程序 解耦成异步执行,加上分布式的生产者和消费者架构 可以在一定程度上支撑大并发。 NSQ是go语言开发的消息队列,对nsqd进行水平扩展是它的部署、配置相对简单。 NSQ介绍 NSQ是1个分布式(distributed)、可扩展(scalable)、配置简单(O ...
分类:
其他好文 时间:
2020-05-14 19:03:34
阅读次数:
62
作为一个JVM进程,EXecutor的内存管理建立在JVM的内存管理之上,Spark对JVM的对内空间进行了更为详细的分配,以充分利用内存。同时,Spark引入了堆外内存,使之可以直接在工作节点的系统内存中开辟空间,进一步优化内存的使用。 堆内内存收到JVM统一管理,堆外内存是直接向操作系统进行内存 ...
分类:
其他好文 时间:
2020-05-13 23:30:58
阅读次数:
71
https://www.bilibili.com/video/av83930526/ https://blog.csdn.net/yuanbingze/article/details/51891222 ...
分类:
其他好文 时间:
2020-05-13 12:28:00
阅读次数:
56
java.io.NotSerializableException: scala.collection.convert.Wrappers$MapWrapperSerialization stack: - object not serializable (class: scala.collection. ...
分类:
其他好文 时间:
2020-05-13 09:48:20
阅读次数:
95
一个模式匹配包含了一系列备选项,每个都开始于关键字 case。每个备选项都包含了一个模式及一到多个表达式。箭头符号 => 隔开了模式和表达式。 1. package scalaprogram.May07 import scala.util.Random //模式匹配 升级版的switch语句 obj ...
分类:
其他好文 时间:
2020-05-12 20:19:21
阅读次数:
59
在SparkSQL中Spark为我们提供了两个新的抽象,分别是DataFrame和DataSet。他们和RDD有什么区别呢?首先从版本的产生上来看:RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6) 如果同样的数据都给到这三个数据结构 ...
分类:
其他好文 时间:
2020-05-12 17:13:48
阅读次数:
220
public static Map<String,String> loadDataFromFile() { Map<String,String> map = new ConcurrentHashMap<>(); try { File file = new File("filename.txt"); ...
分类:
其他好文 时间:
2020-05-12 11:45:24
阅读次数:
82
Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 ...
分类:
其他好文 时间:
2020-05-11 23:56:54
阅读次数:
213
Flink 开发环境通常来讲,任何一门大数据框架在实际生产环境中都是以集群的形式运行,而我们调试代码大多数会在本地搭建一个模板工程,Flink 也不例外。 Flink 一个以 Java 及 Scala 作为开发语言的开源大数据项目,通常我们推荐使用 Java 来作为开发语言,Maven 作为编译和包 ...
分类:
编程语言 时间:
2020-05-11 23:48:25
阅读次数:
101
批处理代码: package com.wyh.wc import org.apache.flink.api.scala._ /** * 批处理代码 */ object WordCount { def main(args: Array[String]): Unit = { //创建一个批处理的一个环境 ...
分类:
其他好文 时间:
2020-05-11 23:28:06
阅读次数:
79