码迷,mamicode.com
首页 >  
搜索关键字:spark技术    ( 104个结果
倾情大奉送--Spark入门实战系列
这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再到编程模型、运行架构,最后介绍其组件SparkSQL、Spark Streaming、Spark MLi...
分类:其他好文   时间:2015-08-03 18:23:27    阅读次数:170
黄洁:Intel Spark应用优化和实践经验
摘要:黄洁就Spark的内存管理、IO提升和计算优化3个方面进行了详细讲解。黄洁表示,对比MapReduce,Spark擅长于复杂的机器学和图的计算、流处理等多种业务场景。 【编者按】干货满满的2015 OpenStack技术大会、2015 Spark技术峰会、2015 Container技术峰会以实力赢得所有观众的认可。在Spark峰会上,英特尔大数据技术中心研发经理黄洁就Spark的...
分类:其他好文   时间:2015-05-29 21:48:32    阅读次数:173
Apache Spark的设计思路
大家都知道,现在Apache Spark可以说是最火的开源大数据项目,就连EMC旗下专门做大数据Pivotal也开始抛弃其自研十几年GreenPlum技术,转而投入到Spark技术开发当中,并且从整个业界而言,Spark火的程度也只有IaaS界的OpenStack能相提并论。那么本文作为一篇技术文章,我们接着就直接切入它的核心机制吧。   什么是内存计算技术?  关于内存计算,就像云...
分类:Web程序   时间:2015-04-29 15:08:30    阅读次数:209
与 Hadoop 对比,如何看待 Spark 技术?
主要是先看MapReduce模型有什么问题?第一:需要写很多底层的代码不够高效,第二:所有的事情必须要转化成两个操作Map/Reduce,这本身就很奇怪,也不能解决所有的情况。其实Spark出现就是为了解决上面的问题。介绍一些Spark的起源。发自 2010年Berkeley AMPLab,发表在h...
分类:其他好文   时间:2015-04-23 01:52:15    阅读次数:249
平易近人、兼容并蓄——Spark SQL 1.3.0概览
摘要:DataFrame API的引入一改RDD API高冷的FP姿态,令Spark变得更加平易近人。外部数据源API体现出的则是兼容并蓄,Spark SQL多元一体的结构化数据处理能力正在逐渐释放。 关于作者:连城,Databricks工程师,Spark committer,Spark SQL主要开发者之一。在4月18日召开的 2015 Spark技术峰会 上,连城将做名为“四两拨千斤...
分类:数据库   时间:2015-04-03 19:26:28    阅读次数:322
Apache Spark技术实战之8:Standalone部署模式下的临时文件清理
Spark运行过程中资源的申请和释放一直是源码分析时需要关注的重点,从资源种类上来说,有CPU、内存、网络、磁盘,其中前三者会在进程退出时由OS来负责释放。而占用的磁盘资源,如果Spark自身不及时的清理,就势必会造成文件的堆积,直至磁盘被占满不可用。 因此有必要弄清楚Spark运行过程中产生的临时...
分类:Web程序   时间:2015-03-08 21:21:50    阅读次数:355
Spark技术内幕:Storage 模块整体架构
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。可以说,RDD实现了用户的逻辑,而Storage则管理了用户...
分类:其他好文   时间:2015-01-18 19:47:34    阅读次数:226
Spark技术内幕:Shuffle的性能调优
通过上面的架构和源码实现的分析,不难得出Shuffle是Spark Core比较复杂的模块的结论。它也是非常影响性能的操作之一。因此,在这里整理了会影响Shuffle性能的各项配置。尽管大部分的配置项在前文已经解释过它的含义,由于这些参数的确是非常重要,这里算是做一个详细的总结。1.1.1  spark.shuffle.manager前文也多次提到过,Spark1.2.0官方支持两种方式的Shuf...
分类:其他好文   时间:2015-01-18 19:46:55    阅读次数:1000
Spark技术内幕:Shuffle Read的整体流程
本文详细讲解Shuffle Read的整个过程,包括如何获得Block的元数据信息,进行网络,本地读取。通过一个整体的流程架构图,详细大家可以对整个过程有一个更加深刻的把握...
分类:其他好文   时间:2015-01-12 09:19:08    阅读次数:197
Spark技术内幕:Shuffle Map Task运算结果的处理
Shuffle Map Task运算结果的处理这个结果的处理,分为两部分,一个是在Executor端是如何直接处理Task的结果的;还有就是Driver端,如果在接到Task运行结束的消息时,如何对Shuffle Write的结果进行处理,从而在调度下游的Task时,下游的Task可以得到其需要的数据。Executor端的处理在解析BasicShuffle Writer时,我们知道ShuffleM...
分类:其他好文   时间:2015-01-12 08:09:30    阅读次数:205
104条   上一页 1 ... 3 4 5 6 7 ... 11 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!