spark flink 技术交流感想

时间：2017-10-18 17:10:46 阅读：247 评论：0 收藏：0 [点我收藏+]

1、spark sql past,present,future

介绍了spark sql的历史，Catalyst优化器的一些优化（Tungsten内部数据编码格式，Whole Stage code gengeration,Vectorized Parquent reader）。Spark SQL未来的一些功能：

a.Data Source APIv2:vestorized read/write, join pushdown,Transcation-friendly

b.完全的向量化：包括shuffle阶段，和写到Data Source

c.原生代码生成：现在的代码生成优化生成的是java代码（JVM的一些优化不可控），所以生成原生代码，很可能基于LLVM技术

2.实时计算在滴滴的应用

滴滴是实时计算平台主要有flink,spark streaming和druid组成

一列应用是实时表表，主要流程是：数据采集（mysql binlog）--》ETL（80%用内置ETL模板，其余用web IDE编码实现，在服务端编码。编译。部署）---》用druid存储---》用druid查询---》报表

另一类应用是各种实时业务，根据业务的延时需求和业务方对flink或是spark的熟悉程序来觉得是使用flink还是spark

另外的技术点是应用yarn node label技术，对应用分配达到待定label的机器上进行物理隔离

yarn的升级对业务无感知

3、flink as server in huawei

为华为云上的实时流计算服务打广告

基于flink，支持sql（flink内建SQL），也支持上传基于flink api编写的程序

强调了对process time（时间到达时间）和row time（时间发生时间）的支持和不同处理

华为的一个工作是扩展SQL语法支持flink CEP功能，使得可以在SQL中使用CEP进行复杂的事件处理（各种pattern识别处理等）

4、Spark on hbase

为阿里云的hbase服务打广告

干货少，介绍了spark hbase connector的三种不同开源组件（huawei ,cloudera ,hortonworks）,这些我们都是知道的

5、sloth-sql on flink

这个比较有意思，就是绕开flink内部自己的sql，自己做了一个独立的HiveQL sql parser，然后进行优化，生成flink代码。理论上不绑定到flink，可以支持spark。bean等

UDF兼容hive udf，同时增加了对增量计算的支持

要强调的sloth使用增量计算模型，解决了大部分操作进行增量计算时如何更新现有状态的问题（比如sum,average等）

　有可能会开源

原文地址：http://www.cnblogs.com/wangyouqun2017/p/7676471.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

周排行