什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象(其实是计算抽象)。代码中是一个抽象类,它代表一个不可变、可分区、里面的元素可并行计算的集合。 不可变:数据一旦写入,不可更改;联想到java 中的String类型, ...
分类:
其他好文 时间:
2020-02-20 21:55:51
阅读次数:
104
pig Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台。 Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口,这一点和FaceBook开源的Hive ...
分类:
其他好文 时间:
2020-02-17 19:32:25
阅读次数:
122
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引 ...
分类:
其他好文 时间:
2020-02-11 13:16:04
阅读次数:
109
所谓的高并发除了在架构上的高屋建瓴,还得需要开发人员在具体业务开发中注重自己的每一行代码、每一个细节,面子有的同时,更重要的还是要有里子。 面对性能,我们一定要有自己的工匠精神,不可以对任何一行代码妥协! 今天和大家分享在业务开发中如何降低接口响应时间的一个小技巧,也是大家日常开发中比较普遍存在的一 ...
分类:
编程语言 时间:
2020-02-03 11:56:09
阅读次数:
90
[Toc] 一、spark基本常识 1、spark中的RDD是什么,有哪些特性? RDD(Resilient Distributed Dataset)叫做分布式数据集模式spark中最基本的数据抽象,它代表一个不可变,可分区,里面的元素可以并行计算的集合。 Resilient:表示弹性的,弹性表示 ...
分类:
其他好文 时间:
2020-02-01 16:09:42
阅读次数:
85
1 import java.util.ArrayList; 2 import java.util.List; 3 import java.util.concurrent.*; 4 import java.util.concurrent.Callable; 5 import java.util.con ...
分类:
编程语言 时间:
2020-01-31 00:36:34
阅读次数:
124
输入输出系统 通道可以看做是DMA的升级版,通道有自己的控制器甚至是存储器、内存 通道可以执行由通道指令编写的程序,由操作系统完成 如果使用通道,就不是连接接口了,而是连接设备管理器 I/O处理机可以使用微处理器甚至直接使用和主处理器相同的处理器来做,当然这就不是家用电脑的范畴了,强大的I/O处理机 ...
分类:
其他好文 时间:
2020-01-29 20:10:57
阅读次数:
140
RDD的概述 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩性。RDD允许用户在执行多个查询时 ...
分类:
其他好文 时间:
2020-01-26 19:13:00
阅读次数:
66
引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 边分割(E ...
分类:
其他好文 时间:
2020-01-26 19:03:21
阅读次数:
90
一、运行速度方面: Spark把中间数据放到内存中,迭代运算效率高。 Hadoop MapReduce将计算结果保存到磁盘上,这样会影响整体速度,而Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。 二、容错方面: Spark引进了弹性分布式数据集RDD ...
分类:
其他好文 时间:
2020-01-18 21:41:13
阅读次数:
106