码迷,mamicode.com
首页 > Web开发 > 详细

Apache Spark

时间:2020-05-31 00:41:36      阅读:95      评论:0      收藏:0      [点我收藏+]

标签:软件   编程   table   大数据   for   head   section   github   软件版本   

 

Apache Spark

Apache Spark是一个开源集群运算框架,最初是由加州大学柏克莱分校AMPLab所开发。相对于HadoopMapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算。Spark在存储器内运行程序的运算速度能做到比Hadoop MapReduce的运算速度快上100倍,即便是运行程序于硬盘时,Spark也能快上10倍速度。[1]Spark允许用户将数据加载至集群存储器,并多次对其进行查询,非常适合用于机器学习算法。[2]

使用Spark需要搭配集群管理员和分布式存储系统。Spark支持独立模式(本地Spark集群)、Hadoop YARNApache Mesos的集群管理。[3] 在分布式存储方面,Spark可以和 AlluxioHDFS[4]、 Cassandra[5] 、OpenStack SwiftAmazon S3等接口搭载。 Spark也支持伪分布式(pseudo-distributed)本地模式,不过通常只用于开发或测试时以本机文件系统取代分布式存储系统。在这样的情况下,Spark仅在一台机器上使用每个CPU核心运行程序。

在2014年有超过465位贡献家投入Spark开发[6],让其成为Apache软件基金会以及大数据众多开源项目中最为活跃的项目。

Apache Spark

标签:软件   编程   table   大数据   for   head   section   github   软件版本   

原文地址:https://www.cnblogs.com/WLCYSYS/p/12995655.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!