码迷,mamicode.com
首页 > 其他好文 > 详细

spark flink 技术交流感想

时间:2017-10-18 17:10:46      阅读:247      评论:0      收藏:0      [点我收藏+]

标签:--   tun   cloudera   意思   cto   UI   格式   有意思   升级   

1、spark sql past,present,future
    介绍了spark sql的历史,Catalyst优化器的一些优化(Tungsten内部数据编码格式,Whole Stage code gengeration,Vectorized Parquent reader)。Spark SQL未来的一些功能:
    a.Data Source APIv2:vestorized read/write, join pushdown,Transcation-friendly
    b.完全的向量化:包括shuffle阶段,和写到Data Source
    c.原生代码生成:现在的代码生成优化生成的是java代码(JVM的一些优化不可控),所以生成原生代码,很可能基于LLVM技术
 
2.实时计算在滴滴的应用
    滴滴是实时计算平台主要有flink,spark streaming和druid组成
    一列应用是实时表表,主要流程是:数据采集(mysql binlog)--》ETL(80%用内置ETL模板,其余用web IDE编码实现,在服务端编码。编译。部署)---》用druid存储---》用druid查询---》报表
    另一类应用是各种实时业务,根据业务的延时需求和业务方对flink或是spark的熟悉程序来觉得是使用flink还是spark
    另外的技术点是应用yarn node label技术,对应用分配达到待定label的机器上进行物理隔离
    yarn的升级对业务无感知
 
3、flink as server in huawei
    为华为云上的实时流计算服务打广告
    基于flink,支持sql(flink内建SQL),也支持上传基于flink api编写的程序
    强调了对process time(时间到达时间)和row time(时间发生时间)的支持和不同处理
    华为的一个工作是扩展SQL语法支持flink CEP功能,使得可以在SQL中使用CEP进行复杂的事件处理(各种pattern识别处理等)
 
4、Spark on  hbase
    为阿里云的hbase服务打广告
    干货少,介绍了spark hbase connector的三种不同开源组件(huawei ,cloudera ,hortonworks),这些我们都是知道的
 
5、sloth-sql on flink
    这个比较有意思,就是绕开flink内部自己的sql,自己做了一个独立的HiveQL sql parser,然后进行优化,生成flink代码。理论上不绑定到flink,可以支持spark。bean等
    UDF兼容hive udf,同时增加了对增量计算的支持
    要强调的sloth使用增量计算模型,解决了大部分操作进行增量计算时如何更新现有状态的问题(比如sum,average等)
 有可能会开源

spark flink 技术交流感想

标签:--   tun   cloudera   意思   cto   UI   格式   有意思   升级   

原文地址:http://www.cnblogs.com/wangyouqun2017/p/7676471.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!