Spark是基于内存的迭代计算框架,适用于需要多次操作特定数据集的应用场合。需要反复操作的次数越多,所需读取的数据量越大,受益越大,数据量小但是计算密集度较大的场合,受益就相对较小(大数据库架构中这是是否考虑使用Spark的重要因素)。 1、Spark的核心是什么? RDD是Spark的基本抽象,是 ...
分类:
其他好文 时间:
2020-02-20 17:10:10
阅读次数:
121
Spark最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。 Spark特点Spark具有如下几个主要特点: 运行速度快:Spark使用先进的DAG(Directed Acyclic Graph,有向无环图)执行引 ...
分类:
其他好文 时间:
2020-02-11 13:16:04
阅读次数:
109
微软分布式云计算框架Orleans(1):Hello World https://www.cnblogs.com/ants/p/5122068.html 1.1 Orleans 整体介绍 https://www.jianshu.com/p/eb1bb81b8ab6 guan f ...
分类:
其他好文 时间:
2020-02-05 20:26:53
阅读次数:
55
2020.2.2今天的寒假生活学习了了解Spark 内存计算框架.Hadoop使用数据复制来实现容错性,而Spark使用RDD数据存储模型来实现数据的容错性。 了解了 hadoop框架 中的 HDFS(分布式文件系统) Mapreduce(分布式计算框架) map函数 Reduce (函数) YAR ...
分类:
其他好文 时间:
2020-02-02 21:55:13
阅读次数:
73
今天我主要了解了spark的一些专业名词以及相关特点: spark简介: 最初由美国加州伯克利大学的AMP实验室于2009年开发,是基于内存计算的大数据计算框架,可用于构建大型,低延迟的数据分析应用程序 2014年打破了hadoop保持的基准排序记录 Spark具有以下特点: 运行速度快:使用DAG ...
分类:
其他好文 时间:
2020-01-31 20:45:10
阅读次数:
107
一、业务架构 二、大数据全链路架构 三、主流框架 3.1 第一代大数据框架: 各自为战 3.2 第二代大数据计算框架 3.3 第三代大数据计算框架 Flink 集群启动 格式化集群 要启动 Hadoop 集群,需要启动 HDFS 和 YARN 两个集群。 注意:首次启动HDFS时,必须对其进行格式化 ...
分类:
其他好文 时间:
2020-01-29 23:28:23
阅读次数:
139
原理流程分析 Map端: 文件存储在HDFS中,每个文件切分成多个一定大小(默认128M)的Block(默认3个备份)存储在多个数据节点上,数据格定义以"\n"分割每条记录,以空格区分一个目标单词。 每读取一条记录,调用一次map函数,然后继续读取下一条记录直到split尾部。 map 输出的结果暂 ...
分类:
其他好文 时间:
2020-01-28 16:02:42
阅读次数:
109
今天主要学习了对spark的初步认识以及相应名词的理解 包括Spark特点、 Scala特性、BDAS架构、Spark组件的应用场景、Spark基本概念、Spark运行架构、 Spark架构设计的优点 、Spark各种概念之间的相互关系 Hadoop 是基于磁盘的大数据计算框架 Spark是基于内存 ...
分类:
其他好文 时间:
2020-01-26 22:32:22
阅读次数:
95
引言 在了解GraphX之前,需要先了解关于通用的分布式图计算框架的两个常见问题:图存储模式和图计算模式。 图存储模式 巨型图的存储总体上有边分割和点分割两种存储方式。2013年,GraphLab2.0将其存储方式由边分割变为点分割,在性能上取得重大提升,目前基本上被业界广泛接受并使用。 边分割(E ...
分类:
其他好文 时间:
2020-01-26 19:03:21
阅读次数:
90
[TOC] 1. 正文 1.1. 一些问题 如果真正要将HTCondor高通量计算产品化还需要很多工作要做,HTCondor并没有GUI界面,更多更全面的功能在Linux系统下的命令窗口下更方便。 拆分任务也是使用者值得考虑的问题,很多的密集运算其实不太方便拆分,拆分后大概率要进行合并操作,这种合并 ...
分类:
其他好文 时间:
2020-01-25 23:28:47
阅读次数:
99