码迷,mamicode.com
首页 >  
搜索关键字:spark streaming动手实战    ( 7001个结果
Spark技术内幕: Task向Executor提交的源码解析
从org.apache.spark.scheduler.DAGScheduler#submitMissingTasks开始,分析Stage是如何生成TaskSet的。如果一个Stage的所有的parent stage都已经计算完成或者存在于cache中,那么他会调用submitMissingTask...
分类:其他好文   时间:2014-10-27 06:56:06    阅读次数:249
Apache Spark技术实战之6 -- spark-submit常见问题及其解决
编写了独立运行的Spark Application之后,需要将其提交到Spark Cluster中运行,一般会采用spark-submit来进行应用的提交,在使用spark-submit的过程中,有哪些事情需要注意的呢? 本文试就此做一个小小的总结。
分类:Web程序   时间:2014-10-26 21:11:13    阅读次数:275
【甘道夫】基于Mahout0.9+CDH5.2运行分布式ItemCF推荐算法
环境: hadoop-2.5.0-cdh5.2.0 mahout-0.9-cdh5.2.0 引言 虽然Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark,但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽,再加上项目进度的压力以及开发人员的技能现状,所以不得不继续使用Mahout一段时间。 今天记录...
分类:编程语言   时间:2014-10-24 16:36:02    阅读次数:268
spark1.1.0学习路线
经过一段时间授课,积累下不少的spark知识,想逐步汇总成资料,分享给小伙伴们。对于想视频学习的小伙伴,可以访问炼数成金网站的《spark大数据平台》课程,每周的课程是原理加实际操作。最新的课程是第3期,至于费用,越认真学习,学习成本越低。       从Spark1.1.0开始,重新规划了一下学习路线,由于涉及的内容比较多,会不断的完善其中的内容,争取在Spark1.2.0形成一个完整的体...
分类:其他好文   时间:2014-10-24 13:03:54    阅读次数:215
spark work启动失败
hostname里不能包含"_",否则报错 ?INFO RemoteActorRefProvider$RemoteDeadLetterActorRef: Message [org.apache.spark.deploy.DeployMessages$RegisterWorker] from Actor[akka://sparkWorker/user/Worker#-14...
分类:其他好文   时间:2014-10-23 12:51:43    阅读次数:406
sparkSQL1.1入门之十:总结
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。 基本概念: SchemaRDD RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan 运行架构: sqlContext运行架构hiveContext运行架构 基本操作 原生RDD的操作parquet文件的操作j...
分类:数据库   时间:2014-10-23 12:29:53    阅读次数:298
sparkSQL1.1入门之九:sparkSQL之调优
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。       木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和...
分类:数据库   时间:2014-10-23 12:27:59    阅读次数:357
sparkSQL1.1入门之四:深入了解sparkSQL运行计划
前面两章花了不少篇幅介绍了SparkSQL的运行过程,很多读者还是觉得其中的概念很抽象,比如Unresolved LogicPlan、LogicPlan、PhysicalPlan是长得什么样子,没点印象,只知道名词,感觉很缥缈。本章就着重介绍一个工具hive/console,来加深读者对sparkSQL的运行计划的理解。 1:hive/console安装       spa...
分类:数据库   时间:2014-10-22 10:11:17    阅读次数:430
Spark Standalone Mode
It is very easy to install a Spark cluster (Standalone mode). In my example, I used three machines. All machines run a OS of ubuntu 12.04 32bit. One m...
分类:其他好文   时间:2014-10-21 17:20:33    阅读次数:192
【Spark亚太研究院系列丛书】Spark实战高手之路-第一章 构建Spark集群(第五步)(5)
从控制台我们可以看见有两个DataNode,此时我们点击“Live Nodes”查看一下其信息: 从控制台中看到了我们的两个Datanode节点SparkWorker1和SparkWorker2,这正是我们预期中的! 第三步:启动yarn集群 使用jps命令...
分类:其他好文   时间:2014-10-21 10:32:36    阅读次数:169
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!