最新的Spark 1.2版本支持为Spark On YARN模式的Spark Application根据Task自动调整Executor数,要启用该功能,需做以下操作: 一: 在所有的NodeManager中,修改yarn-site.xml,为yarn.nodemanager.aux-services...
分类:
数据库 时间:
2015-01-09 00:22:12
阅读次数:
1652
本地开发spark代码上传spark集群服务并运行(基于spark官网文档)...
分类:
Web程序 时间:
2015-01-08 20:15:02
阅读次数:
192
package org.apache.spark.sql.sourcesimport org.apache.spark.SparkContextimport java.sql.{ResultSet, DriverManager}import org.apache.spark.rdd.JdbcRDD/...
分类:
数据库 时间:
2015-01-08 19:50:57
阅读次数:
637
通过Hash Based Shuffle和Sort Based Shuffle的源码,可以得出使用Spark Pluggable框架开发一个第三方的Shuffle Service是比较容易的;这个容易是指功能实现方面。但是这个实现必须要考虑超大规模数据场景下的性能问题,资源消耗问题。...
分类:
其他好文 时间:
2015-01-08 08:19:06
阅读次数:
273
先上代码 1 class FunctionalObjects(var _x: Int, var _y: Int) { 2 require(_x > 0) 3 require(_y > 0) 4 5 def this(value: Int) = this(value, value) 6 ...
分类:
其他好文 时间:
2015-01-07 23:32:21
阅读次数:
185
Spark 启动历史任务记录进程,报错 Logging directory must be specified解决...
分类:
系统相关 时间:
2015-01-07 22:09:54
阅读次数:
260
importscala.util.parsing.combinator.JavaTokenParsers
objectParserCombinatorextendsJavaTokenParsers{
defmain(args:Array[String]){
valmultiply:Parser[Double]=floatingPointNumber~rep(
("*"|"/")~floatingPointNumber^^{
case"*"~(factor:String)=>left:Double=&..
分类:
其他好文 时间:
2015-01-07 19:17:38
阅读次数:
146
该项目分析了目前主流分布式通讯相关开源产品中使用的No Schema序列化产品Kryo,Fastjson,Hessian的序列化机制,通过构造相对比较复杂的数据model,针对序列化size,序列化时间进行了细致测试。通过测试报告可以清晰的看出Kryo无疑是大赢家,无论是序列化大小,还是速度上都更胜一筹,这也就不难理解为什么Spark,Storm等流计算框架会选它作为序列化工具。另外,可以看出这三款软件在BitSet,EnumSet等特殊类型的序列化上还有不少问题,作者也给Kryo,Fastjson社区提了...
分类:
其他好文 时间:
2015-01-07 18:49:57
阅读次数:
151
正在准备做Spark SQL external data source与关系型数据库交互的部分,参考下Sqoop2是如何操作关系型数据库的。下载地址:http://archive.cloudera.com/cdh5/cdh/5/下载并安装:cd /home/spark/app/wget http:/...
分类:
其他好文 时间:
2015-01-07 18:19:09
阅读次数:
373