Spark 2.4新特性概述

时间：2020-11-06 00:53:40 阅读：19 评论：0 收藏：0 [点我收藏+]

Spark 2.4新特性概述

导读：Spark官方于今年11月份新发布了Spark 2.4。那么新版本的Spark都有哪些值得了解的新特性？应对大数据领域的诸多方案，Spark目前是什么样的状况？未来会有怎样的规划？来自Apache Spark PMC的大牛为我们讲述Spark的进击与挑战。

11 月 23 ~ 24 日，GIAC 全球互联网架构大会将于上海举行。GIAC 是高可用架构技术社区推出的面向架构师、技术负责人及高端技术从业人员的技术架构大会。今年的 GIAC 已经有英特尔、腾讯、阿里巴巴、百度、蚂蚁金服、华为、科大讯飞、新浪微博、京东、七牛、美团点评、饿了么、才云、格灵深瞳、Databricks等公司专家出席。本周购买可享门票88折优惠，高可用架构会员低至6折。

在大会前夕，高可用架构采访了2018年 GIAC大数据&AI分论坛出品人范文臣，就目前大家广泛关注的大数据&AI方面的问题进行了访谈。

技术图片范文臣，Apache Spark PMC成员，是Spark 2.4的release manager。在Databricks的工作主要负责Spark开源社区相关工作，包括带领社区开发一些大的功能，审核社区提交的代码，培养社区的活跃贡献者。

高可用架构：范老师，您好，很高兴能采访到您。能否简单介绍一下您以及您在Apache Spark PMC所做的事情？

范文臣：我的主要工作内容就是Spark开源社区的维护。包括及时地审阅代码贡献者的提案，解决一些非常棘手的bug，参与一些项目的设计和规划。

高可用架构：能否简单介绍一下Spark包含哪些组件？它们各自的作用是什么？

范文臣：Spark作为一个统一的大数据查询引擎，对常见的场景都提供了对应的组件。比如专注于结构化数据查询的SQL组件，机器学习方面的Mllib，流计算方面的Structured Streaming, 图计算方面的GraphX。除了这些内置组件之外，开源社区也开发了一些第三方组件，比如基于SQL组件重新开发的GraphFrame，相比GraphX有不少的性能提升。

高可用架构：Spark今年发布了几个版本，能否简单介绍一下增加了哪些让人期待的新特性？

范文臣：Spark今年发布了两个大版本，2.3和2.4，分别是在2月底和11月初发布的。这两个大版本除了持续提升Spark的稳定性、易用性和性能之外，还扩展了Spark的生态圈。2.3引入了Spark on K8s, 让用户多了一种部署Spark的方式。2.3还引入了Pandas UDF，可以让用户在Spark上直接运行Pandas函数。Data Source V2项目也在2.3正式启动，旨在方便用户更容易的把各种数据源接入到Spark。一种新的低延迟流处理模式也在2.3推出，那些对微批处理的延迟不满意的用户，现在又多了一种选择。2.4除了继续改善2.3的新特性之外，也有很多令人兴奋的新功能。比如Barrier Execution mode，使得Spark能更方便的和一些深度学习框架做整合。还有高阶函数，有了它用户可以更容易的处理复杂嵌套数据。Spark的开源社区非常活跃，感谢这些分布在全世界的Spark代码贡献者，他们的努力让Spark的每个版本都非常的丰富。关于新版本的功能，我在本次GIAC大会有非常详细的介绍，欢迎大家届时莅临。

高可用架构：听到一种我认为非常有意思的观点"Hadoop能做到的，Spark都能做到，或者即将都可以做到，因此长远来看，Hadoop很可能会被Spark取代"，您是否赞同？您是怎么看的？

范文臣：Hadoop不仅仅是一个计算引擎，它还有资源调度器YARN，分布式文件系统HDFS，以及庞大的Hadoop生态圈。Spark作为一个计算引擎，确实要比Hadoop MapReduce架构更好，但取代整个Hadoop生态圈不是Spark的目标。目前来看，大数据领域有点减弱了对Hadoop的依赖，比如K8s PK YARN，各种object store PK HDFS。

高可用架构：对于流式计算的场景，Spark Streaming与Storm对比，各自有什么样的优劣？

范文臣：Storm作为最早期的流处理引擎之一，它的设计相比现代流处理引擎确实有些落后。Storm要求开发人员直接编写整个数据流的拓扑结构，开发成本比较高。容错处理方面的设计也不是很高明。Spark Streaming（Structured Streaming）利用Spark高效的作业调度和执行，使用微批模式来处理流数据，提供了相当高的吞吐量，很适合那些对延迟不是特别敏感的场景。同时，Structured Streaming提供了非常简单易懂的用户接口，使得开发流处理程序更为容易。

高可用架构：Spark在AI领域发力，跟常用的AI框架MXNet和TensorFlow对比，Spark有什么样的优劣？

范文臣：Spark作为计算引擎，关注点更多在数据处理部分，以及一些简单的机器学习算法。在AI领域，Spark的目标不是去PK其他的AI框架，而是和他们有机结合，融入AI生态圈，帮助用户更更方便的开发AI相关的项目。2.4推出的Barrier Execution mode就是在这个方向做出的努力。关于Spark对于AI的支持，我的同事蒋星博会在本次GIAC大会详细论述这方面。

高可用架构：Spark覆盖的场景越来越广，挑战也越来越大，所以，Spark未来2-3年有什么样的规划？还可能会有哪些令人振奋的特性？

范文臣：现在的大数据开源圈子非常的火热，有许许多多的工程师为开源项目做贡献，让大数据更容易、更低成本地在企业落地。这个时候，如何更好的融入大数据生态圈，是每个大数据开源项目都要思考的问题。未来Spark会变得更开放，更易用，和其他大数据组件的整合也会变得更简单，更高效。当然，Spark也会不断地提升自己，在用户看不见的地方也会持续发力，比如更高的性能，更稳定的运行，等等。关于未来版本的功能，我在本次GIAC大会有非常详细的介绍，欢迎大家当面讨论。

高可用架构：最后，作为大数据&AI的出品人，你对于 GIAC 大会有什么寄语或者展望？

范文臣：非常感谢GIAC的邀请，也非常荣幸能够成为大数据&AI的出品人。希望GIAC越办越好！

GIAC全球互联网架构大会将于11月23-24日，上海淳大万丽酒店举办，范文臣老师将作为出品人、讲师出席。

GIAC是msup和高可用架构技术社区联合推出的面向架构师、技术负责人及高端技术从业人员的技术架构大会。大会汇集一线互联网企业首席架构师及技术型CTO为主的讲师，分享他们在本年度最值得的总结、盘点的实践启示，从业者可快速与业界同步热门及前沿最核心技术，助力企业业务升级及成功转型。

本次大会共有 5 大板块方向，20 场技术专题，70 个互联网架构案例。本届GIAC 已确定有英特尔、腾讯、阿里巴巴、百度、蚂蚁金服、华为、科大讯飞、新浪微博、京东、七牛、美团点评、饿了么、才云、格灵深瞳、Databricks等公司专家出席。

范文臣老师所在的专场是大数据&AI专场，精彩议题如下：
技术图片

更多专场议题可点击「阅读原文」查看，大会正在如火如荼的进行中，现在报名可享88折优惠，快来报名和我们一起参会吧！

Spark 2.4新特性概述

标签：流式负责人同事新版本工程师数据 struct 场景现在

原文地址：https://blog.51cto.com/14977574/2546718

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行