搜索关键字：RDD，搜索到1327个结果！码迷,mamicode.com！

Spark SQL Catalyst源码分析之Physical Plan 到 RDD的具体实现

Spark SQL 物理计划到 RDD 的计算过程实现。...

分类：数据库时间：2014-07-29 22:08:02 阅读次数：656

1.7 Spark Web 界面每一个SparkContext发布一个web界面，默认端口是4040，它显示了应用程序的有用信息。这包括： Ø 一系列的调度阶段和任务 Ø 对于RDD大小和内存使用的总结 Ø 环境信息 Ø 运行的执行器（executor）的信息你可以通过浏览器访问http://:4040，当然，你必去先启动SparkContext。比如命令：./bin/sp...

分类：Web程序时间：2014-07-28 16:35:43 阅读次数：1584

鸡肋的JdbcRDD

今天准备将mysql的数据倒腾到RDD，很早以前就知道有一个JdbcRDD，就想着使用一下，结果发现却是鸡肋一个。首先，看看JdbcRDD的定义： * An RDD that executes an SQL query on a JDBC connection and reads results. * For usage example, see test case ...

分类：数据库时间：2014-07-23 16:36:21 阅读次数：408

Spark-Dependency

1、Spark中采用依赖关系(Dependency)表示rdd之间的生成关系。Spark可利用Dependency计算出失效的RDD。在每个RDD中都存在一个依赖关系的列表 private var dependencies_ : Seq[Dependency[_]] = null 用以记录各rdd中各partition的parent partition。 2、Spark中存在两类Depe...

分类：其他好文时间：2014-07-22 22:34:15 阅读次数：264

Apache Spark源码走读之15 -- Standalone部署模式下的容错性分析

欢迎转载，转载请注明出处，徽沪一郎。概要本文就standalone部署方式下的容错性问题做比较细致的分析，主要回答standalone部署方式下的包含哪些主要节点，当某一类节点出现问题时，系统是如何处理的。Standalone部署的节点组成介绍Spark的资料中对于RDD这个概念涉及的比较多，但对于...

分类：其他好文时间：2014-07-07 14:19:57 阅读次数：274

Spark源码系列（五）RDD是如何被分布式缓存？

这一章想讲一下Spark的缓存是如何实现的。这个persist方法是在RDD里面的，所以我们直接打开RDD这个类。 def persist(newLevel: StorageLevel): this.type = { // StorageLevel不能随意更改 if (storageL...

分类：其他好文时间：2014-07-03 12:53:15 阅读次数：314

Spark源码系列（三）作业运行过程

导读看这篇文章的时候，最好是能够跟着代码一起看，我是边看代码边写的，所以这篇文章的前进过程也就是我看代码的推进过程。作业执行上一章讲了RDD的转换，但是没讲作业的运行，它和Driver Program的关系是啥，和RDD的关系是啥？官方给的例子里面，一执行collect方法就能出结果，那我们就从co...

分类：其他好文时间：2014-06-28 13:54:31 阅读次数：257

Spark源码系列（四）图解作业生命周期

这一章我们探索了Spark作业的运行过程，但是没把整个过程描绘出来，好，跟着我走吧，let you know！我们先回顾一下这个图，Driver Program是我们写的那个程序，它的核心是SparkContext，回想一下，从api的使用角度，RDD都必须通过它来获得。下面讲一讲它所不为认知的一面...

分类：其他好文时间：2014-06-25 11:13:39 阅读次数：288

Spark1.0.0 编程模型

Spark Application可以在集群中并行运行，其关键是抽象出RDD的概念（详见RDD 细解），也使得Spark Application的开发变得简单明了。下图浓缩了Spark的编程模型。 1：Spark应用程序的结构 Spark应用程序可分两部分：driver部分和executor部分初始化SparkContext和主体程序 ...

分类：其他好文时间：2014-06-22 21:48:06 阅读次数：311

十分钟了解分布式计算:Spark

Spark是一个通用的分布式内存计算框架，本文主要研讨Spark的核心数据结构RDD，及其在内存上的容错，内容基于论文Zaharia, Matei, et al. "Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In...

分类：其他好文时间：2014-06-14 20:42:37 阅读次数：326

共1327条上一页 1 ... 130 131 132 133 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)