搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

spark SQL编程动手实战-01

首先创建SparkContext上下文：接着引入隐身转换，用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据：接下来要加载数据，这里的测试数据是user.txt文件：我们创建好use...

分类：数据库时间：2015-03-02 19:26:20 阅读次数：264

spark SQL编程动手实战-01

首先创建SparkContext上下文：接着引入隐身转换，用于把RDD转成SchemaRDD: 接下来定义一个case class 来用于描述和存储SQL表中的每一行数据：接下来要加载数据，这里的测试数据是user.txt文件：我们创建好use.txt增加内容并上传到hdfs中： web控制台查询： hdfs命令查询：加...

分类：数据库时间：2015-03-02 19:08:17 阅读次数：222

记录一则Spark读写和Lost Excutor错误的分析和解决过程

一、概述上篇blog记录了些在用spark-sql时遇到的一些问题，今天继续记录用Spark提供的RDD转化方法开发公司第一期标签分析系统（一部分scala作业逻辑代码后面blog再给大家分享）遇到的一些SPARK作业错误信息。其中有些问题可能一些数据量或者shuffle量比较小的作业时不会遇到的..

分类：其他好文时间：2015-02-27 18:34:20 阅读次数：205

Spark优化

Spark 优化 · 数据序列化 · 内存优化 o 确定内存使用 o 调整数据结构 o 序列化的RDD存储 o 垃圾回收调整 · 其它注意事项 o 并行粒度 o Reduce任务内存使用 o 广播大的变量 o 数据本地性 · 总结基于内存的计算（当然也可以用磁盘）是Spark的一个重...

分类：其他好文时间：2015-02-10 13:31:11 阅读次数：204

【knowledgebase】如何知道partition数

对于调优和排错来说，查看一个RDD有多少个partition是非常有用的。常用的查看方法有如下几种：1、通过SparkUI查看Task执行的partition数当一个stage执行时，能通过SparkUI界面查看到指定stage的partiton数目val someRDD = sc.parallel...

分类：其他好文时间：2015-02-09 15:55:33 阅读次数：117

【knowledgebase】不要在一个很大的RDD上调用collect

如果一个RDD很大以至于它的所有元素并不能在driver端机器的内存中存放下，请不要进行如下调用：val values = myVeryLargeRDD.collect()collect将尝试拷贝RDD中的每个元素到Driver端，容易导致OOM或者crash；相反，如果你能通过调用take、tak...

分类：其他好文时间：2015-02-09 15:34:34 阅读次数：171

关于DIMMQ: Discardable In-Memory Materialized Query

最近在看CBO在不同系统里的实现方式，比如flink里在编译时对plan的CBO优化，以及运行时的CBO：Hive、Apache Calcite(即Optiq)的一些内容。今天第一次看到DIMMQ的概念，聊聊我的几点看法。 DIMMQ的全称是Discardable In-Memory Materialized Query，提出这个概念，本质上还是为了解决数据重用。只是这次数据的重用不是磁盘上的replication，或是内存里的RDD，而是更细粒度的query级别，具体data set是隐藏在DIMMQ...

分类：其他好文时间：2015-02-06 15:02:52 阅读次数：164

Spark SQL External Data Sources JDBC官方实现写测试

通过Spark SQL External Data Sources JDBC实现将RDD的数据写入到MySQL数据库中。jdbc.scala重要API介绍：/** * Save this RDD to a JDBC database at `url` under the table name `ta...

分类：数据库时间：2015-02-05 17:52:44 阅读次数：1163

spark streaming 2: DStream

DStream是类似于RDD概念，是对数据的抽象封装。它是一序列的RDD，事实上，它大部分的操作都是对RDD支持的操作的封装，不同的是，每次DStream都要遍历它内部所有的RDD执行这些操作。它可以由StreamingContext通过流数据产生或者其他DStream使用map方法产生（与RDD一...

分类：其他好文时间：2015-02-05 14:56:02 阅读次数：260

spark 笔记 7: DAGScheduler

在前面的sparkContex和RDD都可以看到，真正的计算工作都是同过调用DAGScheduler的runjob方法来实现的。这是一个很重要的类。在看这个类实现之前，需要对actor模式有一点了解：http://en.wikipedia.org/wiki/Actor_modelhttp://www...

分类：其他好文时间：2015-01-24 00:26:17 阅读次数：455

共1327条上一页 1 ... 124 125 126 127 128 ... 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)