首页 > 其他好文 > 详细

大数据07 Spark

时间：2020-02-29 17:28:30 阅读：94 评论：0 收藏：0 [点我收藏+]

标签：分布式系统基本概念多对一处理 java park 不同的系统 bsp

Spark 是基于内存的计算, 低延迟.

Apache 基金会3大分布式系统开源项目 Hadoop, Spark, Storm (数据流)

Spark 特点: 处理快，容易使用(Java,Python,Scala,R). 通用性(包括SQL,机器学习, 流失计算), 运行模式多样

技术图片

技术图片

技术图片

Spark生态系统

技术图片

技术图片

不同的软件的问题：

技术图片

技术图片

Spark 可以一站式提供的解决方案.

技术图片

技术图片

技术图片

Spark 基本概念

技术图片

技术图片

技术图片

技术图片

技术图片

技术图片

DAG: 有向无环图

技术图片

RDD

技术图片

技术图片

技术图片

技术图片

技术图片

这一系列处理称为一个Lineage(血缘关系), DAG 拓扑排序的结果. 管道化处理.

技术图片

技术图片

窄依赖: 1对1，或多对一.

宽依赖: 1对多

Stage划分: 就依赖于宽/窄依赖

技术图片

技术图片

技术图片

技术图片

技术图片

技术图片

Spark SQL

Shark 即 Hive on Spark. 所以 Shark 与 Hive 很像，只是在最后物理层生成了 Spark, 而不是生成的 MapReduce.

技术图片

Shark 有线程安全. 所以 Shark 被抛弃了, 转到了 SparkSQL 架构.

技术图片

技术图片

技术图片

技术图片

RDD 的来源更加多元化

技术图片

技术图片

技术图片

现在比较流行的是 Hadoop + Spark

技术图片

技术图片

大数据07 Spark

标签：分布式系统基本概念多对一处理 java park 不同的系统 bsp

原文地址：https://www.cnblogs.com/moveofgod/p/12383908.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！