码迷,mamicode.com
首页 >  
搜索关键字:RDD    ( 1327个结果
spark SQL编程动手实战-01
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use...
分类:数据库   时间:2015-03-02 19:26:20    阅读次数:264
spark SQL编程动手实战-01
首先创建SparkContext上下文: 接着引入隐身转换,用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据: 接下来要加载数据,这里的测试数据是user.txt文件: 我们创建好use.txt增加内容并上传到hdfs中: web控制台查询: hdfs命令查询: 加...
分类:数据库   时间:2015-03-02 19:08:17    阅读次数:222
记录一则Spark读写和Lost Excutor错误的分析和解决过程
一、概述上篇blog记录了些在用spark-sql时遇到的一些问题,今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统(一部分scala作业逻辑代码后面blog再给大家分享)遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..
分类:其他好文   时间:2015-02-27 18:34:20    阅读次数:205
Spark优化
Spark 优化 ·        数据序列化 ·        内存优化 o   确定内存使用 o   调整数据结构 o   序列化的RDD存储 o   垃圾回收调整 ·        其它注意事项 o   并行粒度 o   Reduce任务内存使用 o   广播大的变量 o   数据本地性 ·        总结 基于内存的计算(当然也可以用磁盘)是Spark的一个重...
分类:其他好文   时间:2015-02-10 13:31:11    阅读次数:204
【knowledgebase】如何知道partition数
对于调优和排错来说,查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种:1、通过SparkUI查看Task执行的partition数当一个stage执行时,能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel...
分类:其他好文   时间:2015-02-09 15:55:33    阅读次数:117
【knowledgebase】不要在一个很大的RDD上调用collect
如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下,请不要进行如下调用:val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端,容易导致OOM或者crash;相反,如果你能通过调用take、tak...
分类:其他好文   时间:2015-02-09 15:34:34    阅读次数:171
关于DIMMQ: Discardable In-Memory Materialized Query
最近在看CBO在不同系统里的实现方式,比如flink里在编译时对plan的CBO优化,以及运行时的CBO:Hive、Apache Calcite(即Optiq)的一些内容。 今天第一次看到DIMMQ的概念,聊聊我的几点看法。 DIMMQ的全称是Discardable In-Memory Materialized Query,提出这个概念,本质上还是为了解决数据重用。只是这次数据的重用不是磁盘上的replication,或是内存里的RDD,而是更细粒度的query级别,具体data set是隐藏在DIMMQ...
分类:其他好文   时间:2015-02-06 15:02:52    阅读次数:164
Spark SQL External Data Sources JDBC官方实现写测试
通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍:/** * Save this RDD to a JDBC database at `url` under the table name `ta...
分类:数据库   时间:2015-02-05 17:52:44    阅读次数:1163
spark streaming 2: DStream
DStream是类似于RDD概念,是对数据的抽象封装。它是一序列的RDD,事实上,它大部分的操作都是对RDD支持的操作的封装,不同的是,每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生(与RDD一...
分类:其他好文   时间:2015-02-05 14:56:02    阅读次数:260
spark 笔记 7: DAGScheduler
在前面的sparkContex和RDD都可以看到,真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的。这是一个很重要的类。在看这个类实现之前,需要对actor模式有一点了解:http://en.wikipedia.org/wiki/Actor_modelhttp://www...
分类:其他好文   时间:2015-01-24 00:26:17    阅读次数:455
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!