标签:-- tun cloudera 意思 cto UI 格式 有意思 升级
1、spark sql past,present,future
介绍了spark sql的历史,Catalyst优化器的一些优化(Tungsten内部数据编码格式,Whole Stage code gengeration,Vectorized Parquent reader)。Spark SQL未来的一些功能:
a.Data Source APIv2:vestorized read/write, join pushdown,Transcation-friendly
b.完全的向量化:包括shuffle阶段,和写到Data Source
c.原生代码生成:现在的代码生成优化生成的是java代码(JVM的一些优化不可控),所以生成原生代码,很可能基于LLVM技术
2.实时计算在滴滴的应用
滴滴是实时计算平台主要有flink,spark streaming和druid组成
一列应用是实时表表,主要流程是:数据采集(mysql binlog)--》ETL(80%用内置ETL模板,其余用web IDE编码实现,在服务端编码。编译。部署)---》用druid存储---》用druid查询---》报表
另一类应用是各种实时业务,根据业务的延时需求和业务方对flink或是spark的熟悉程序来觉得是使用flink还是spark
另外的技术点是应用yarn node label技术,对应用分配达到待定label的机器上进行物理隔离
yarn的升级对业务无感知
3、flink as server in huawei
为华为云上的实时流计算服务打广告
基于flink,支持sql(flink内建SQL),也支持上传基于flink api编写的程序
强调了对process time(时间到达时间)和row time(时间发生时间)的支持和不同处理
华为的一个工作是扩展SQL语法支持flink CEP功能,使得可以在SQL中使用CEP进行复杂的事件处理(各种pattern识别处理等)
4、Spark on hbase
为阿里云的hbase服务打广告
干货少,介绍了spark hbase connector的三种不同开源组件(huawei ,cloudera ,hortonworks),这些我们都是知道的
5、sloth-sql on flink
这个比较有意思,就是绕开flink内部自己的sql,自己做了一个独立的HiveQL sql parser,然后进行优化,生成flink代码。理论上不绑定到flink,可以支持spark。bean等
UDF兼容hive udf,同时增加了对增量计算的支持
要强调的sloth使用增量计算模型,解决了大部分操作进行增量计算时如何更新现有状态的问题(比如sum,average等)
有可能会开源
spark flink 技术交流感想
标签:-- tun cloudera 意思 cto UI 格式 有意思 升级
原文地址:http://www.cnblogs.com/wangyouqun2017/p/7676471.html