标签:clu orm kafka 社交网络 包含 要求 调度 分布 mys
快速且通用的集群计算平台
包含基本功能,包括任务调度、内存管理、容错机制。内部定义了RDDS(弹性分布式数据集),提供了很多APIs来创建和操作这些RDDs。
应用场景:为其它组件提供底层的服务。
Spark处理结构化数据的库,像Hive SQL、MySQL一样。
应用场景:企业中用来做报表统计
实时数据流处理组件,类似Storm。Spark Streaming提供API来操作实时流数据。
应用场景:企业中用来从Kafka接收数据做实时统计
一个包含通用机器学习功能的包,Machine learning lib。包含分类、聚类、回归等,还包括模型评估和数据导入。MLlib提供的上面这些方法,都支持集群上的横向扩展。
处理图的库(例如社交网络图),并进行图的并行计算,像Spark Streaming,Spark SQL一样,它继承了RDD API。提供了各种图的操作,和常用的图算法,例如RangeRank算法
应用场景:图计算
集群管理,Spark自带一个集群管理是单独调度器。常见的集群管理包括:Hadoop YARN、Apache Mesos
Spark底层优化,基于Spark底层的组件,也得到相应的优化。紧密集成,节省了各个组件使用时的部署,测试时间。向Spark增加新的组件时,其它组件可立即享用新组件的功能。
Hadoop应用场景:离线处理、对及时性要求不高
Spark应用场景:时效性要求高、机器学习等领域
标签:clu orm kafka 社交网络 包含 要求 调度 分布 mys
原文地址:https://www.cnblogs.com/qikeyishu/p/10841128.html