首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use...
分类:
数据库 时间:
2015-03-02 19:26:20
阅读次数:
264
首先创建SparkContext上下文:
接着引入隐身转换,用于把RDD转成SchemaRDD:
接下来定义一个case class 来用于描述和存储SQL表中的每一行数据:
接下来要加载数据,这里的测试数据是user.txt文件:
我们创建好use.txt增加内容并上传到hdfs中:
web控制台查询:
hdfs命令查询:
加...
分类:
数据库 时间:
2015-03-02 19:08:17
阅读次数:
222
一、概述上篇blog记录了些在用spark-sql时遇到的一些问题,今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统(一部分scala作业逻辑代码后面blog再给大家分享)遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..
分类:
其他好文 时间:
2015-02-27 18:34:20
阅读次数:
205
Spark 优化
· 数据序列化
· 内存优化
o 确定内存使用
o 调整数据结构
o 序列化的RDD存储
o 垃圾回收调整
· 其它注意事项
o 并行粒度
o Reduce任务内存使用
o 广播大的变量
o 数据本地性
· 总结
基于内存的计算(当然也可以用磁盘)是Spark的一个重...
分类:
其他好文 时间:
2015-02-10 13:31:11
阅读次数:
204
对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel...
分类:
其他好文 时间:
2015-02-09 15:55:33
阅读次数:
117
如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak...
分类:
其他好文 时间:
2015-02-09 15:34:34
阅读次数:
171
最近在看CBO在不同系统里的实现方式,比如flink里在编译时对plan的CBO优化,以及运行时的CBO:Hive、Apache Calcite(即Optiq)的一些内容。
今天第一次看到DIMMQ的概念,聊聊我的几点看法。
DIMMQ的全称是Discardable In-Memory Materialized Query,提出这个概念,本质上还是为了解决数据重用。只是这次数据的重用不是磁盘上的replication,或是内存里的RDD,而是更细粒度的query级别,具体data set是隐藏在DIMMQ...
分类:
其他好文 时间:
2015-02-06 15:02:52
阅读次数:
164
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta...
分类:
数据库 时间:
2015-02-05 17:52:44
阅读次数:
1163
DStream是类似于RDD概念,是对数据的抽象封装。它是一序列的RDD,事实上,它大部分的操作都是对RDD支持的操作的封装,不同的是,每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生(与RDD一...
分类:
其他好文 时间:
2015-02-05 14:56:02
阅读次数:
260
在前面的sparkContex和RDD都可以看到,真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的。这是一个很重要的类。在看这个类实现之前,需要对actor模式有一点了解:http://en.wikipedia.org/wiki/Actor_modelhttp://www...
分类:
其他好文 时间:
2015-01-24 00:26:17
阅读次数:
455