码迷,mamicode.com
首页 > 其他好文 > 详细

深入探究Spark -- 基本组成

时间:2018-03-06 23:09:20      阅读:154      评论:0      收藏:0      [点我收藏+]

标签:RKE   查询   分布式   cut   作业   exe   dia   etl   nod   

DAG:Directed Acyclic Graph,有向无环图
RDD:Resilient Distributed Dataset 弹性分布式数据集,一种分布式的内存抽象,将工作集缓存到内存中,实现了复用。
 
用户使用交互接口(Driver)与Spark集群的Cluster Manager进行交互,CM进行调度和资源管理。管理的是Worker Node(包括Executor、Task、Cache)
技术分享图片
 
 
Spark Streaming将流式计算分解成短小的批处理作业。
技术分享图片
 
 
MLlib实现了许多算法,包括分类、回归、聚类、协同过滤、降维等
 
Spark SQL 提供与外部数据源便捷的访问,交互式的查询
 
GraphX ETL、试探性分析、迭代式的图计算

深入探究Spark -- 基本组成

标签:RKE   查询   分布式   cut   作业   exe   dia   etl   nod   

原文地址:https://www.cnblogs.com/kinghey-java-ljx/p/8516927.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!