Spark 通信架构 1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间 ...
分类:
其他好文 时间:
2019-05-02 21:48:37
阅读次数:
152
大数据技术之Kafka一 Kafka概述 1.1 Kafka是什么 在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由 ...
分类:
其他好文 时间:
2019-05-01 14:52:35
阅读次数:
142
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。在这里还是要推荐下我自己建的大数据学习交流群:529867072,群里都是学大数据开发的,如果你正在学习大数据,小
分类:
其他好文 时间:
2019-05-01 11:57:36
阅读次数:
141
Spark GraphX 概述 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可 ...
分类:
其他好文 时间:
2019-04-30 21:39:50
阅读次数:
141
第1章 Spark GraphX 概述1.1 什么是 Spark GraphX1.2 弹性分布式属性图1.3 运行图计算程序第2章 Spark GraphX 解析2.1 存储模式2.1.1 图存储模式2.1.2 GraphX 存储模式2.2 vertices、edges 以及 triplets2.2 ...
分类:
编程语言 时间:
2019-04-30 19:55:51
阅读次数:
162
根据Gartner的预计,全球非关系型数据库(NoSQL)在2020~2022预计保持在30%左右高速增长,远高于数据库整体市场。 阿里云数据库HBase版也是踏着技术发展的节奏,伴随着NoSQL和大数据技术的兴起和发展,从2010年开始研究和发展。时光荏苒,日月如梭,转眼九年时间,在阿里云上直接开 ...
分类:
数据库 时间:
2019-04-28 15:26:20
阅读次数:
208
第1章 RDD 概念1.1 RDD 为什么会产生1.2 RDD 概述1.2.1 什么是 RDD1.2.2 RDD 的属性1.3 RDD 弹性1.4 RDD 特点1.4.1 分区1.4.2 只读1.4.3 依赖1.4.4 缓存1.4.5 CheckPoint第2章 RDD 编程2.1 RDD 编程模型 ...
分类:
其他好文 时间:
2019-04-27 00:38:29
阅读次数:
508
1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset它就是一个 class。 abstract class RDD[T: ClassTag]( @transient private var _sc: SparkContext, @transient priv ...
分类:
其他好文 时间:
2019-04-27 00:27:57
阅读次数:
132
架构不是一个职业而是一种能力,每一种架构师只不过是在不同的领域里面使用不同的技术,没有什么可对比,就好比如你问一个篮球明星和一个足球明星有什么区别一样! 01 架构师需要考虑四个问题 1. 确定系统干什么不干什么,也就是说系统的边界在哪里? 2. 确定架构内部的模块与模块之间的关系,以及模块与外部之 ...
分类:
其他好文 时间:
2019-04-26 18:01:34
阅读次数:
160
大数据已经融入到各行各业,哪些大数据技术是最受欢迎?哪些大数据技术潜力巨大?请听大讲台老师对10个最热门的大数据技术的介绍。 大数据学习群:199427210 (一)预测分析 预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模 ...
分类:
其他好文 时间:
2019-04-26 13:36:05
阅读次数:
118