spark面试问题 1、spark中的RDD是什么,有哪些特性 RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。 Dataset:就是一个集合,用于存放数据的 Distri ...
分类:
其他好文 时间:
2019-06-27 00:54:00
阅读次数:
99
参考文献: 《深入浅出DPDK》 https://www.cnblogs.com/LubinLew/p/cpu_affinity.html ...................................................................... 前言: 处理器提高 ...
分类:
其他好文 时间:
2019-06-24 00:43:42
阅读次数:
109
一。RDD概念 1.1。RDD概述 1.1.1。什么是RDD RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。在 Spark 中,对数据的所有操作不外乎创建 RDD、转化已有R ...
分类:
其他好文 时间:
2019-06-22 10:20:18
阅读次数:
85
1.1 基本概念 Storm是一个流式计算框架,Storm采用Java和Clojure编写,其优点是全内存计算,所以它的定位是分布式实时计算。 Spark是一个基于内存计算的开源集群计算系统,目的是更快速的进行数据分析。Spark类似于Hadoop MapReduce的通用并行计算框架,Spark基 ...
分类:
其他好文 时间:
2019-06-15 00:24:40
阅读次数:
176
讨论QQ:1586558083 目录 一、分区的概念 二、为什么要进行分区 三、Spark分区原则及方法 3.1 本地模式 3.2 YARN模式 四、分区器 正文 回到顶部 一、分区的概念 分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式 ...
分类:
其他好文 时间:
2019-06-11 13:21:29
阅读次数:
119
承接上一篇,我们继续说下.net4.0中的同步机制,是的,当出现了并行计算的时候,轻量级别的同步机制应运而生,在信号量这一块 出现了一系列的轻量级,今天继续介绍下面的3个信号量 CountdownEvent,SemaphoreSlim,ManualResetEventSlim。 一:Countdow ...
分类:
其他好文 时间:
2019-06-10 18:29:52
阅读次数:
82
最后一篇,我们来说说vs的“性能向导",通常我们调试程序的性能一般会使用Stopwatch,如果希望更加系统的了解程序,我们就需要 用到”性能向导“,通过性能报告便于我们快速的发现并找到潜在的性能问题。 首先我们上一段需要改进的代码: 记住,我们的程序需要改成Release版本,因为这里包含了太多的 ...
分类:
其他好文 时间:
2019-06-10 18:29:26
阅读次数:
114
在并行计算中,不可避免的会碰到多个任务共享变量,实例,集合。虽然task自带了两个方法:task.ContinueWith()和Task.Factory .ContinueWhenAll()来实现任务串行化,但是这些简单的方法远远不能满足我们实际的开发需要,从.net 4.0开始,类库给我们提供了很 ...
分类:
其他好文 时间:
2019-06-10 18:24:50
阅读次数:
83
1.用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS的功能:元数据、检查点、DataNode功能 HDFS的工作原理: 数据存取 - HDFS架构: Master / Slave(主从结构) - 节点可以理解为物理机器 主节点,只有一个: Namen ...
分类:
其他好文 时间:
2019-06-05 19:42:39
阅读次数:
70
1.阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 HDFS功能:是Hadoop项目的核心子项目。是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上 pc server。 具有以下的功能:(1)高容错性 : ...
分类:
其他好文 时间:
2019-06-03 17:08:11
阅读次数:
103