环境:
hadoop-2.5.0-cdh5.2.0
mahout-0.9-cdh5.2.0
引言
虽然Mahout已经宣布不再继续基于Mapreduce开发,迁移到Spark,但是实际面临的情况是公司集群没有足够的内存支持Spark这只把内存当饭吃的猛兽,再加上项目进度的压力以及开发人员的技能现状,所以不得不继续使用Mahout一段时间。
今天记录...
分类:
编程语言 时间:
2014-10-24 16:36:02
阅读次数:
268
经过一段时间授课,积累下不少的spark知识,想逐步汇总成资料,分享给小伙伴们。对于想视频学习的小伙伴,可以访问炼数成金网站的《spark大数据平台》课程,每周的课程是原理加实际操作。最新的课程是第3期,至于费用,越认真学习,学习成本越低。
从Spark1.1.0开始,重新规划了一下学习路线,由于涉及的内容比较多,会不断的完善其中的内容,争取在Spark1.2.0形成一个完整的体...
分类:
其他好文 时间:
2014-10-24 13:03:54
阅读次数:
215
在与 Martin Fowler 共同参加的一次主题演讲中,他提供了一个敏锐的观察报告: Java 的遗产是? 平台,不是? 语言。 最初的 Java 技术工程师曾做过一个了不起的决定,将语言从运行时中分离出来,最终使 200 多种...
分类:
编程语言 时间:
2014-10-23 19:25:04
阅读次数:
271
gcd.scalaobject gcd{ def main(args:Array[String]){ println( gcd1(args(0).toInt,args(1).toInt)) println( gcd2(args(0).toInt,args(1).toInt)) } ...
分类:
其他好文 时间:
2014-10-23 19:00:44
阅读次数:
121
Kafka 分布式消息队列 类似产品有JBoss、MQ一、由Linkedln 开源,使用scala开发,有如下几个特点:(1)高吞吐(2)分布式(3)支持多语言客户端 (C++、Java)二、组成: 客户端是 producer 和 consumer,提供一些API,服务器端是Broker,客户端提供...
分类:
其他好文 时间:
2014-10-23 16:13:44
阅读次数:
199
ChecksumAccumulator.scalaimport scala.collection.mutable.Mapclass ChecksumAccumulator { private var sum = 0 def add(b: Byte) { sum += b } def check...
分类:
其他好文 时间:
2014-10-23 14:19:57
阅读次数:
185
hostname里不能包含"_",否则报错 ?INFO RemoteActorRefProvider$RemoteDeadLetterActorRef: Message [org.apache.spark.deploy.DeployMessages$RegisterWorker] from Actor[akka://sparkWorker/user/Worker#-14...
分类:
其他好文 时间:
2014-10-23 12:51:43
阅读次数:
406
回顾一下,在前面几章中,就sparkSQL1.1.0基本概念、运行架构、基本操作和实用工具做了基本介绍。
基本概念:
SchemaRDD
RuleTreeLogicPlanParserAnalyzerOptimizerSparkPlan
运行架构:
sqlContext运行架构hiveContext运行架构
基本操作
原生RDD的操作parquet文件的操作j...
分类:
数据库 时间:
2014-10-23 12:29:53
阅读次数:
298
spark是一个快速的内存计算框架;同时是一个并行运算的框架。在计算性能调优的时候,除了要考虑广为人知的木桶原理外,还要考虑平行运算的Amdahl定理。
木桶原理又称短板理论,其核心思想是:一只木桶盛水的多少,并不取决于桶壁上最高的那块木块,而是取决于桶壁上最短的那块。将这个理论应用到系统性能优化上,系统的最终性能取决于系统中性能表现最差的组件。例如,即使系统拥有充足的内存资源和...
分类:
数据库 时间:
2014-10-23 12:27:59
阅读次数:
357