标签:快速 分类算法 分布 分类 模式 生态 框架 mic mapred
1、Spark是什么
Spark是一个高性能内存处理引擎,它提供了基于RDD的数据抽象,能够灵活处理分布式数据集
2、Spark核心概念
RDD:弹性分布式数据集,它是一个只读的、带分区的数据集合,并支持多种分布式算子。由下面5部分构成:
DAG:Spark是一个通用DAG引擎,这使得用户能够在一个应用程序中描述复杂的逻辑,以便于优化整个数据流(比如避免重复计算等),并让不同计算阶段直接通过本地磁盘或内存交换数据(而不是像MapReduce那样通过HDFS)
3、Spark生态系统
Spark Streaming:基于Spark Core实现的流式计算框架,其基本思想是将流式数据以时间为单位切割成较小的RDD,并启动一个应用程序处理单位时间内的RDD。简而言之,它将流式计算转化成微批处理(micro-batch),借助高效的Spark引擎进行快速计算
Spark SQL:基于Spark实现的SQL引擎,能将SQL转换成Spark应用程序,提交到集群中运行
MLLib:基于Spark实现的机器学习库,实现了常用的机器学习和数据挖掘算法,包括聚类算法、分类算法、推荐算法等
GraphX:基于Spark实现的图计算框架,提供了通用的图存储模式和图计算模式。
标签:快速 分类算法 分布 分类 模式 生态 框架 mic mapred
原文地址:https://www.cnblogs.com/yayazhang221/p/13256368.html