Spark Core面试篇01 随着Spark技术在企业中应用越来越广泛,Spark成为大数据开发必须掌握的技能。前期分享了很多关于Spark的学习视频和文章,为了进一步巩固和掌握Spark,在原有spark专刊基础上,新增《Spark面试2000题》专刊,题集包含基础概念、原理、编码开发、性能调优 ...
分类:
其他好文 时间:
2018-10-21 22:57:15
阅读次数:
1920
在本文中,我们将分享在为事务性数据构建高度可伸缩的多租户分析服务时所吸取的教训。我们将从大局和业务需求开始。然后描述具有用于数据准备、发布和查询引擎的批处理和交互式模块的体系结构,并注意相关的Spark技术。然后我们将深入Prism查询引擎的内部,重点介绍所使用的Spark SQL、DataFram ...
分类:
其他好文 时间:
2018-10-09 15:35:29
阅读次数:
147
导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之后,对spark技术的使用有一些自己的经验积累以及心得体会,在此分享给大家。 本文依次从spark生态,原理,基 ...
分类:
其他好文 时间:
2018-08-26 14:13:11
阅读次数:
166
在上文《Spark技术内幕:Stage划分及提交源代码分析》中,我们分析了Stage的生成和提交。可是Stage的提交,仅仅是DAGScheduler完毕了对DAG的划分,生成了一个计算拓扑,即须要依照顺序计算的Stage,Stage中包括了能够以partition为单位并行计算的Task。我们并没 ...
分类:
其他好文 时间:
2018-03-19 13:45:10
阅读次数:
270
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi ...
分类:
其他好文 时间:
2018-03-08 10:36:17
阅读次数:
183
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi ...
分类:
Web程序 时间:
2017-11-12 12:36:55
阅读次数:
252
学习任何的spark技术之前,请先正确理解spark,可以参考:正确理解spark以下是用sparkRDDjavaapi实现从关系型数据库中读取数据,这里使用的是derby本地数据库,当然可以是mysql或者oracle等关系型数据库:packagecom.twq.javaapi.java7;
importorg.apache.spark.api.java.Java..
分类:
数据库 时间:
2017-09-21 09:50:49
阅读次数:
292
3.3 Spark在预测核心层的应用 我们使用Spark SQL和Spark RDD相结合的方式来编写程序,对于一般的数据处理,我们使用Spark的方式与其他无异,但是对于模型训练、预测这些需要调用算法接口的逻辑就需要考虑一下并行化的问题了。我们平均一个训练任务在一天处理的数据量大约在500G左右, ...
分类:
其他好文 时间:
2017-08-12 12:37:33
阅读次数:
144
2017-06-21 朱洁 Docker很热,怎么形容?感觉开源除了spark技术,就是docker了,甚至把Go语言也带火了,把Go在TIOBE的排名从百名外带入主流语言的行列。 Docker快成救世主了,这么牛逼的技术,docker和hadoop碰撞出什么火花来呢,是不是得赶紧用上呢? 就不介绍 ...
分类:
其他好文 时间:
2017-06-21 16:47:14
阅读次数:
172