Spark 1.0.0版本发布

时间：2014-06-03 00:43:41 阅读：269 评论：0 收藏：0 [点我收藏+]

前言

bubuko.com,布布扣

今天Spark终于跨出了里程碑的一步，1.0.0版本的发布标志着Spark已经进入1.0时代。1.0.0版本不仅加入了很多新特性，并且提供了更好的API支持。Spark SQL作为一个新的组件加入，支持在Spark上存储和操作结构化的数据。已有的标准库比如ML、Streaming和GraphX也得到了很大程度上的增强，对Spark和Python的接口也变得更稳定。以下是几个主要的改进点：

融合YARN的安全机制

Hadoop有着自己的安全机制，包括认证和授权。Spark现在可以和Hadoop/YARN的安全模型并存，也就是说Spark可以对任务提交（job submission）进行认证，能够使用HDFS的认证机制进行数据的安全传输，各组件之间也增加了互相认证。

改善了任务提交的流程

这个版本在很大程度上增强了Spark应用的提交。Spark启用新的任务提交工具spark-submit tool以便能够通过一个普通进程向任一Spark集群提交应用程序。Spark的UI界面中也增加了历史任务的记录，方便了用户查看已经结束了任务运行情况。

Spark SQL的加入

Spark SQL作为一个新组建加入到1.0.0版本中，它能够利用Spark进行结构化数据的存储和操作，结构化数据既可以赖在外部结构化数据源（当前支持Hive和Parquet），也可以通过向已有RDD增加schema的方式得到。

Spark SQL提供了方便的调用接口，用户可以通过SQL语句来与Spark代码交互。当前Spark SQL使用Catalyst优化器来对SQL语句进行优化从而得到更有效的执行方案，并且可以将结果存储到Parquet格式中，在将来Spark SQL还会兼容其他的存储系统。

MLib的改进

这个版本的MLib增加了对Scala、Java、Python中稀疏特征向量的支持，其主要利用了线性方法、k-means和朴素贝叶斯在存储和计算上的稀疏性。1.0.0的MLib还增加了几个新的算法，包括为分类和回归增加了可扩展的决策树、矩阵算法的分布式实现（包括SVD和PCA）、模型评估函数以及L-BFGS算法。